Claude Opus 4.8发布:4407亿融资下的最强通用模型

2026-05-29阅读 0热度 0
通用

5月29日凌晨,Anthropic正式发布了Claude Opus 4.8,这是目前其产品线中能力最强的通用模型。从基准测试成绩来看,Opus 4.8在多项指标上全面超越了Gemini 3.1 Pro和上一代Opus 4.7,仅在智能体终端编程这一项上逊色于GPT-5.5。更值得关注的是,标准模式定价保持不变,而快速模式的价格直接降到了Opus 4.7的三分之一——性价比的提升相当明显。

与模型发布同步,Anthropic还官宣了一笔650亿美元(约合软妹币4406.94亿元)的H轮巨额融资,投后估值飙升至9650亿美元(约合软妹币6.54万亿元)。对比今年2月时的3800亿美元估值,短短几个月几乎翻了3倍。本轮融资由Altimeter Capital、Dragoneer、Greenoaks和红杉资本等多家知名投资机构领投。值得注意的是,Anthropic的最新估值已达到OpenAI的约1.13倍——根据英国《金融时报》上周的报道,OpenAI的最新估值为8520亿美元。

Opus 4.8这次最关键的升级在于动态工作流。基于这一能力,模型可以生成数百个并行子智能体,执行从启动到合并的数十万行代码的大规模代码库迁移这类大型任务。简单来说,它在大规模、高复杂度的工程任务上的执行力有了质的飞跃。

目前Claude Opus 4.8已全面上线,标准模式的价格不变,快速模式的定价仅为Opus 4.7和4.6的三分之一。具体来看,标准模式下每百万输入token为5美元(约合软妹币33.9元),每百万输出token为25美元(约合软妹币169.5元);快速模式则分别为10美元(约合软妹币67.8元)和50美元(约合软妹币338.9元)。开发者可以通过Claude API使用claude-opus-4-8。

AI数据平台Databricks的报告给出了一个关键数据:Opus 4.8在其Genie数据智能体中实现了“推理能力的飞跃式提升”,同时由于在处理PDF和图表方面的多模态效率优化,其token成本比Opus 4.7降低了61%。

关于未来的产品路线,Anthropic在官方博客中透露,他们计划推出智能水准超越Opus的全新系列模型,并预计在未来数周内向全体客户开放Mythos级别模型,相关的安全防护方案也正在快速推进中。

模型更新后,马斯克也转帖称赞“干得漂亮”,不过评论区里网友的反应倒是有趣:你为什么不先去修复Grok,反而在这为别人鼓掌?

一、网友评价视觉质量提升明显,但数不清手指数

Anthropic官方并没有放出Opus 4.8的详细应用案例,但社交平台X上已经有大量用户分享了自己的实测体验。

有开发者用四元素项目对比了Opus 4.7、Opus 4.8和Opus 4.8 Max的效果,从生成结果来看,视觉质量的提升确实很明显。早期体验者对Opus 4.8的评价相当高,甚至有人表示新模型完全可以被称为“Opus 5”,并基于新模型生成了下面这个网页。

也有开发者通过最高思考力度模式测试了Opus 4.8,在《我的世界》相关任务上进行验证。他的整体感受是:Opus 4.8表现不错,相比Opus 4.7有明显提升,所有任务一次运行就全部成功,但能力上并未实现跨越式的突破——这次调用的总成本在9到10美元之间。

不过,另一位开发者测试“熔岩灯项目”时发现,Opus 4.7反而比Opus 4.8看起来效果更好。

还有人给Opus 4.8挖了个坑:上传了一张拥有六根手指的手掌图片,问它这张图有几根手指。Opus 4.8的回答是:“这是一只正常的人类手掌,有五根手指。”——显然,这个坑它没看出来。

Reddit上已经有网友开始不留情面地吐槽:“Opus 4.8自发布以来,性能出现了断崖式下滑。”这位网友分析说,Anthropic可能为了省钱,开始用2比特量化模型跑服务了。

Anthropic在官方博客中也坦诚地表示,Opus 4.8相较于前代产品升级不大,但每一个改进都相当扎实。

二、基准测试几乎全面超过GPT-5.5、Gemini 3.1 Pro

从基准测试数据来看,与Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro相比,Opus 4.8在智能体代码开发、跨学科推理、计算机使用、智能体金融分析以及高价值知识工作等场景中,都取得了全面领先。唯一的短板出现在智能体终端编程上,略逊于GPT-5.5。

Anthropic同时发布了Opus 4.8的系统卡,其中提到,Opus 4.8与目前仍处于选择性发布状态的Mythos,在不一致性行为方面非常接近——两者的偏差度约为1.9,低于Opus 4.7与Mythos之间的2.5。

在训练数据方面,Claude Opus 4.8使用的是Anthropic专有的混合数据集,包括互联网公开信息、公共和私有数据集,以及其他模型生成的合成数据,并通过去重和分类进行数据清洗和过滤。

官方博客对Opus 4.8的定位很清晰:它最适合处理前代模型无法完成的任务,以及对性能要求极高的场景。它专为专业软件工程、复杂的智能体工作流程和高风险的企业级任务而设计。模型具备自适应思维功能——能够根据任务的复杂程度自动调整思考投入,难题多花时间,简单问题快速响应。常见的应用场景包括:

高级编程方面,在极少监督的情况下即可交付可用于生产环境的代码,支持周密规划、长时间稳定运行、大型代码库操作,并能自动检测并纠正错误。

AI智能体方面,模型可以周密规划,利用记忆功能实现跨会话学习,并在极少人工干预下推动需要长时间运行的工作。

企业工作流程方面,可以跨会话传递上下文,在电子表格、幻灯片和文档处理方面表现强劲,能端到端管理复杂、多天的项目。

三、用户可手动控制思考力度,比前代模型更诚实

除了模型本身,Anthropic还发布了几项值得关注的更新:

首先是动态工作流。基于这一能力,Claude可以主动规划工作,在单个会话中运行数百个并行子智能体,验证输出结果后反馈给用户。一个典型的例子是,搭载Opus 4.8的Claude Code现在能够以现有测试套件为基准,执行从启动到合并的数十万行代码的大规模代码库迁移。这项功能目前处于研究预览阶段,Claude Code的企业版、团队版和Max版用户可以抢先体验。

其次是为claude.ai和Cowork新增了思考力度控制功能。在模型选择器旁边,新增了一个按钮,允许用户设定Claude在生成回答时投入多大的“思考力度”。高力度设置下,模型会更频繁、更深入地思考,提供更优质的回复;反之则思考减少,回复速度更快。该功能现已对所有套餐开放。

最后,Claude消息接口现在支持在消息数组内加入系统指令。这意味着开发者可以在任务执行过程中动态更新模型指引,既不会中断提示词缓存,也无需借助用户轮次来传递更新内容。借助这一能力,开发者能在智能体运行时,实时调整权限、token配额及环境上下文。

在诚实性方面,早期测试人员反馈,Opus 4.8更有可能标记出工作中的不确定性,且不太可能做出未经证实的断言。Anthropic内部评估结果表明,相较于前代版本,Opus 4.8放任自身编写的代码漏洞被遗漏、未被检出的概率,降低到了大约四分之一。

四、新融资含亚马逊投的50亿美元

官宣融资的同时,Anthropic还透露了一个重要数据:本月初其年化收入已突破470亿美元(约合软妹币3186亿元)。本轮融资预计将用于推进安全性和可解释性研究、扩展计算能力以满足不断增长的Claude需求,并扩大客户所依赖的产品和合作伙伴关系。

除了前文提到的领投方,本轮重要的其他投资者还包括AMP PBC、Baillie Gifford、淡马锡等十余家投资机构。

特别值得一提的是,这轮融资中包含了超大型科技企业此前已经承诺投入的150亿美元投资,其中包括亚马逊投资的50亿美元。美光、三星与SK海力士作为Anthropic的战略基础设施合作伙伴同步入局。

近几周,Anthropic在大幅提升计算能力方面动作频频:与亚马逊签署协议新增高达5吉瓦的计算能力;与谷歌和博通签署协议,新增5吉瓦的下一代TPU计算能力;与SpaceX签署协议,使用Colossus 1和Colossus 2的GPU计算能力。值得一提的是,Claude是全球首个同时支持亚马逊云服务、谷歌云和微软Azure三大云平台的前沿模型,不过AWS仍然是其主要云服务提供商和训练合作伙伴。

结语:新模型发布节奏加快,Anthropic压力倍增?

从整体来看,Claude这次的更新并没有追求碘伏式的能力升级,而是把重心放在了降低成本上。Anthropic还透露,他们正持续研发并推出多款模型,力求以更低成本实现与Opus系列相近的能力。

值得玩味的是,Opus 4.8的发布节奏明显加快了——它在Opus 4.7发布仅41天后便问世,而此前Sonnet和Haiku系列的发布周期长达三个月甚至七个月。背后的原因不难理解:OpenAI的Codex和谷歌的Gemini Flash模型相继发布新版本,竞争压力就在眼前。Anthropic必须紧跟步伐,不能掉队。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策