Claude Opus 4.8诚实评测：AI可靠性新标杆

2026-05-29阅读 0热度 0

Anthropic

古希腊哲学家第欧根尼曾提着灯笼在雅典街头高喊“我在寻找一个诚实的人”。如果这一幕穿越到今天，我们大概率都在找同一个东西——一个不撒谎的AI。

Anthropic正式推出Claude Opus 4.8大语言模型，据称这款模型能让第欧根尼的愿望成真。

“Opus 4.8最关键的提升之一就是它的诚实性。”Anthropic在周四发布的博客中写道。

这款新前沿模型的行为更规范：它极少抛出没有依据的判断，而且在不确定答案时更愿意主动告知用户。用Anthropic的话说：“评估结果也验证了这一点——Opus 4.8在代码编写中放过未标注缺陷的概率，比上一代低了约4倍。”

从实际体验看，从Opus 4.6到4.7的进步已经相当明显。4.6版本经常误解指令或输出错误结果，而4.7则会主动说明最初的思路走不通，然后迅速调整策略。近期的项目任务也表明，4.7对需求的理解深度远超4.6。有这样的质量跃升在前，自然期待4.7到4.8能带来同样的惊喜。

Spotify的员工工程师汤姆·普里查德已经上手测试了Opus 4.8，他的评价印证了这种期待。

“Claude Opus 4.8的判断力明显更强。在Claude Code中，它会提出正确的问题，主动发现自身错误，在方案不合理时提出反驳，并在进行重大变更前针对复杂的多服务探索建立充分的信心。这是一款非常适合开发构建的模型。”他在博客文章中写道。

Claude Code自4.7版本起就具备“努力程度（effort）”功能——本质上是衡量模型在处理问题时投入多少AI算力的指标，以Token数量计算。在Opus 4.8中，默认的高努力程度能实现“质量与用户体验的最佳整体平衡”。在编码任务中，该默认设置消耗的Token数量与Claude Code Opus 4.7的默认级别相当，但性能表现更佳。

这一努力程度功能现在也延伸到了Claude.ai和Cowork。在较高设置下，Claude会“更频繁、更深入地进行思考”；较低设置下，响应更快，用户感受到的AI限制也更少。

此次发布的研究预览版还带来了一项动态工作流功能：Opus 4.8可以规划工作流程，在单次会话中并行运行数百个子智能体，并在反馈结果前验证输出内容。该功能专为超大规模任务设计——Anthropic举的例子是跨数十万行代码的代码库级别迁移工作。Claude能根据任务进展动态生成和管理工作流，而非依赖固定计划；智能体可以在工作中根据发现的情况随时调整优先级和任务分配。这极具潜力。

Anthropic指出，子智能体在向用户反馈结果前会先对自身结果进行验证。当Claude协调数百个子智能体时，系统必须能够识别不确定性、错误假设和失败输出，因为人工监督根本跟不上这种运转节奏。这一点与开头的“诚实性”形成了直接呼应——如果Claude要调度成千上万个智能体，获得可靠且经过验证的结果至关重要。

动态工作流功能将向Enterprise、Team和Max计划的Claude Code用户开放。

Anthropic表示，Claude Opus 4.8已于周四通过Claude及Claude API（标识符为claude-opus-4-8）在全平台正式上线。实际使用中，特别是Claude Code用户，可能需要重启会话或等待一天左右，Claude Code才能识别并切换到新版本——此前从4.6升级到4.7时，持续询问Claude Code使用的版本，直到第二天早上它才停止报告Opus 4.6，转而显示Opus 4.7。

整体定价与Opus 4.7保持一致：基于Token的常规定价为每百万输入Token 5美元、每百万输出Token 25美元。快速模式可使模型以普通模式2.5倍的速度运行，费用比前代模型便宜三倍。虽然快速模式并非人人必需，但其吸引力显而易见——等待Claude Code响应的漫长时间确实让人头疼。

Q&A

Q1：Claude Opus 4.8在诚实性方面有哪些具体改进？

A：Opus 4.8在诚实性上有两大核心改进：一是更少提出缺乏依据的判断，二是在不确定答案时会主动告知用户。根据Anthropic的评估数据，Opus 4.8在代码编写中放过未标注缺陷的概率比上一代低约4倍。这种诚实性在多智能体协作场景中尤为重要，因为当Claude协调数百个子智能体时，人工监督根本无法独立跟上，系统必须能够自主识别错误假设和失败输出。

Q2：Claude Opus 4.8的动态工作流功能是什么，适合哪些用户使用？

A：动态工作流是Opus 4.8以研究预览形式推出的新功能，允许模型在单次会话中并行运行数百个子智能体，并根据任务进展动态调整工作计划，而非执行固定流程。子智能体在反馈结果前还会自动验证输出内容。该功能专为超大规模任务设计，例如跨数十万行代码的代码库迁移。目前此功能仅向Enterprise、Team和Max计划的Claude Code用户开放。

Q3：Claude Opus 4.8的定价是多少，快速模式有什么变化？

A：Opus 4.8的整体定价与上一代Opus 4.7保持一致，基于Token的常规定价为每百万输入Token 5美元、每百万输出Token 25美元。快速模式方面有较大变化——该模式可使模型以普通模式2.5倍的速度运行，费用比前代模型便宜三倍，性价比明显提升。

Claude Opus 4.8诚实评测：AI可靠性新标杆

Q&A

相关阅读

最新教程

最新资讯