Claude Opus 4.8评测:代码错误减少75%速度飙升2.5倍

2026-05-29阅读 0热度 0
Anthropic

Anthropic 刚在AI圈投下一枚重磅炸弹:旗舰模型 Claude Opus 的微调升级版 4.8 悄然上线。这次迭代主攻三大方向——智能体编程、多领域推理与知识工作。多项核心基准测试中,新模型直接反超 GPT-5.5,并顺手解决了业界长期头疼的幻觉问题——模型不再“睁眼说瞎话”。

image.png

代码缺陷率骤降,模型判断力显著提升

早期测试方反馈很直观:Opus 4.8 处理复杂多步骤任务时稳定性大幅增强。官方数据显示,模型放任代码缺陷却缄口不报的概率直降 75%。简言之,它现在更主动标示不确定性——不仅自行识别错误,遇到用户初始计划明显不合理时,还会果断提出异议。这种“敢说实话”的改进,对开发者来说无异于雪中送炭。

推理速度飙升,开发成本压缩至三成

逻辑严密性升级的同时,运行效率也未落下。Opus 4.8 的快速模式速度飙升至原本的 2.5 倍,使用成本却骤降至旧版本的三分之一。在行业公认的 SWE-Bench Pro 编程基准测试中,它斩获 69.2% 的高分,多个核心维度成功压制 Gemini 3.1 Pro 等强劲对手。这次升级既“聪明”又“实惠”,实际落地价值相当可观。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策