Claude Opus 4.8诚实评测:AI可靠性新标杆

2026-05-29阅读 0热度 0
Anthropic

古希腊哲学家第欧根尼曾提着灯笼在雅典街头高喊“我在寻找一个诚实的人”。如果这一幕穿越到今天,我们大概率都在找同一个东西——一个不撒谎的AI。

Anthropic发布Claude Opus 4.8,

Anthropic正式推出Claude Opus 4.8大语言模型,据称这款模型能让第欧根尼的愿望成真。

“Opus 4.8最关键的提升之一就是它的诚实性。”Anthropic在周四发布的博客中写道。

这款新前沿模型的行为更规范:它极少抛出没有依据的判断,而且在不确定答案时更愿意主动告知用户。用Anthropic的话说:“评估结果也验证了这一点——Opus 4.8在代码编写中放过未标注缺陷的概率,比上一代低了约4倍。”

从实际体验看,从Opus 4.6到4.7的进步已经相当明显。4.6版本经常误解指令或输出错误结果,而4.7则会主动说明最初的思路走不通,然后迅速调整策略。近期的项目任务也表明,4.7对需求的理解深度远超4.6。有这样的质量跃升在前,自然期待4.7到4.8能带来同样的惊喜。

Spotify的员工工程师汤姆·普里查德已经上手测试了Opus 4.8,他的评价印证了这种期待。

“Claude Opus 4.8的判断力明显更强。在Claude Code中,它会提出正确的问题,主动发现自身错误,在方案不合理时提出反驳,并在进行重大变更前针对复杂的多服务探索建立充分的信心。这是一款非常适合开发构建的模型。”他在博客文章中写道。

Claude Code自4.7版本起就具备“努力程度(effort)”功能——本质上是衡量模型在处理问题时投入多少AI算力的指标,以Token数量计算。在Opus 4.8中,默认的高努力程度能实现“质量与用户体验的最佳整体平衡”。在编码任务中,该默认设置消耗的Token数量与Claude Code Opus 4.7的默认级别相当,但性能表现更佳。

这一努力程度功能现在也延伸到了Claude.ai和Cowork。在较高设置下,Claude会“更频繁、更深入地进行思考”;较低设置下,响应更快,用户感受到的AI限制也更少。

此次发布的研究预览版还带来了一项动态工作流功能:Opus 4.8可以规划工作流程,在单次会话中并行运行数百个子智能体,并在反馈结果前验证输出内容。该功能专为超大规模任务设计——Anthropic举的例子是跨数十万行代码的代码库级别迁移工作。Claude能根据任务进展动态生成和管理工作流,而非依赖固定计划;智能体可以在工作中根据发现的情况随时调整优先级和任务分配。这极具潜力。

Anthropic指出,子智能体在向用户反馈结果前会先对自身结果进行验证。当Claude协调数百个子智能体时,系统必须能够识别不确定性、错误假设和失败输出,因为人工监督根本跟不上这种运转节奏。这一点与开头的“诚实性”形成了直接呼应——如果Claude要调度成千上万个智能体,获得可靠且经过验证的结果至关重要。

动态工作流功能将向Enterprise、Team和Max计划的Claude Code用户开放。

Anthropic表示,Claude Opus 4.8已于周四通过Claude及Claude API(标识符为claude-opus-4-8)在全平台正式上线。实际使用中,特别是Claude Code用户,可能需要重启会话或等待一天左右,Claude Code才能识别并切换到新版本——此前从4.6升级到4.7时,持续询问Claude Code使用的版本,直到第二天早上它才停止报告Opus 4.6,转而显示Opus 4.7。

整体定价与Opus 4.7保持一致:基于Token的常规定价为每百万输入Token 5美元、每百万输出Token 25美元。快速模式可使模型以普通模式2.5倍的速度运行,费用比前代模型便宜三倍。虽然快速模式并非人人必需,但其吸引力显而易见——等待Claude Code响应的漫长时间确实让人头疼。

Q&A

Q1:Claude Opus 4.8在诚实性方面有哪些具体改进?

A:Opus 4.8在诚实性上有两大核心改进:一是更少提出缺乏依据的判断,二是在不确定答案时会主动告知用户。根据Anthropic的评估数据,Opus 4.8在代码编写中放过未标注缺陷的概率比上一代低约4倍。这种诚实性在多智能体协作场景中尤为重要,因为当Claude协调数百个子智能体时,人工监督根本无法独立跟上,系统必须能够自主识别错误假设和失败输出。

Q2:Claude Opus 4.8的动态工作流功能是什么,适合哪些用户使用?

A:动态工作流是Opus 4.8以研究预览形式推出的新功能,允许模型在单次会话中并行运行数百个子智能体,并根据任务进展动态调整工作计划,而非执行固定流程。子智能体在反馈结果前还会自动验证输出内容。该功能专为超大规模任务设计,例如跨数十万行代码的代码库迁移。目前此功能仅向Enterprise、Team和Max计划的Claude Code用户开放。

Q3:Claude Opus 4.8的定价是多少,快速模式有什么变化?

A:Opus 4.8的整体定价与上一代Opus 4.7保持一致,基于Token的常规定价为每百万输入Token 5美元、每百万输出Token 25美元。快速模式方面有较大变化——该模式可使模型以普通模式2.5倍的速度运行,费用比前代模型便宜三倍,性价比明显提升。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策