GPT 5.5 与 Opus 4.7 测评(GPT 5.5 版)
先读榜单:GPT-5.5 赢在哪里
这张榜单里,最值得琢磨的其实不是某个单项分数,而是OpenAI精心挑选的这套评测组合。它透露出的信号,远比单一指标更丰富。
Terminal-Bench 2.0 测的是什么?是模型能不能在终端环境里独立“干活”:规划、调用工具、解读报错、修改脚本、持续迭代。GPT-5.5 Thinking 拿到了82.7%,而Claude Opus 4.7是69.4%。这个差距之所以扎眼,是因为它考核的不是百科问答或单文件补全,而是更贴近开发者今天真正想交给Agent去处理的那类脏活累活。
GDPval 瞄准的是知识工作场景。GPT-5.5 Thinking 以84.9%领先于Opus 4.7的80.3%。这意味着,在“将零散资料整合成可用工作成果”这个维度上——无论是报告、表格、分析框架还是业务文档——GPT-5.5展现出了更强的“消化”和“产出”能力,这正是它意图切入的市场。
OSWorld-Verified 的结果反而需要冷静看待。GPT-5.5 Thinking 78.7%对Opus 4.7的78.0%,几乎打成平手。这说明,在模拟真实电脑操作环境的复杂任务中,GPT-5.5的领先优势并非压倒性的,至少从这项公开数据看,只是小幅领先。
BrowseComp 上,GPT-5.5 Pro 以90.1%领先。这可以理解为,在“结合搜索、浏览器和各类工具进行信息获取与处理”的赛道上,OpenAI继续保持强势。对于研究、报告撰写、资料查证这类工作,GPT-5.5的优势会被进一步放大。
FrontierMath 则指向了另一条赛道。在Tier 4难度级别,GPT-5.5 Pro 达到39.6%,而Opus 4.7为22.9%。如果这些分数在后续独立评测中得到验证,那么GPT-5.5在前沿数学和科研辅助方面的提升,将具有战略意义。
至于CyberGym(网络安全评测),GPT-5.5 Thinking 以81.8%领先。但这类指标需要谨慎解读:能力强弱是一回事,平台限制、可信访问和合规边界则是另一回事。模型能力越强,越不能单纯用“能不能做”来评价,安全与可控性同等重要。
但榜单没讲完:Opus 4.7 在 SWE-Bench Pro 上赢了
OpenAI的发布页里还隐藏了一组关键数据:在SWE-Bench Pro上,Claude Opus 4.7以64.3%的通过率,领先于GPT-5.5的58.6%。这绝非可以忽略的微小差距。
SWE-Bench Pro 评测的是什么?是模型能否修复真实的GitHub Issue。它考验的不是写出一个算法答案,而是理解现有代码库的问题、修改正确的文件、通过测试用例,并且确保不引入新的错误。在这个维度上,Opus 4.7更像一位谨慎细致的资深工程师。
这也正是为什么,不能仅凭OpenAI主推的那张榜单就下最终结论。GPT-5.5在Terminal-Bench上的大幅领先,说明它在终端和多步骤执行流上更擅长;而Opus 4.7在SWE-Bench Pro上的胜利,则证明了它在复杂代码修复上的稳健性。这是两种不同性质的胜利。
翻译成日常的开发选择,结论很清晰:如果你需要一个能自己打开终端、执行命令、排查错误、持续推进任务的“执行者”,GPT-5.5是更合适的选择。如果你需要的是一个能仔细阅读仓库、修复真实Issue、进行深度代码审查的“合作伙伴”,Opus 4.7依然非常强大。
最新定位:OpenAI 要做执行者,Anthropic 要做可靠同事
从双方的官方表述中,可以清晰地看到两条不同的产品路径。
OpenAI对GPT-5.5的定位非常明确:它不是一个单纯的聊天模型,而是面向智能体编码(agentic coding)、电脑使用(computer use)、知识工作(knowledge work)和科学研究(scientific research)的模型。其定价策略也印证了这一点——GPT-5.5 Pro的API定价达到每百万输入Token 30美元、输出180美元。这一定价本身就宣告了它的定位:它卖的不是廉价的计算,而是“更少的交互轮次、更低的返工率、更少的人工干预”所带来的整体任务完成效率。
Anthropic对Opus 4.7的定位同样清晰。它强调高级软件工程、长时间任务、严格的指令遵循、自我验证能力,以及更高的视觉分辨率(最长边2576像素)。其价格维持在更具竞争力的水平。Anthropic的语言体系始终围绕着“可靠地完成困难任务”。
这两家公司的差异很有意思。OpenAI的叙事是“让模型帮你完成任务”;Anthropic的叙事则是“让模型成为你可靠的工作伙伴”。听起来相似,但产品内在的气质和追求的安全边界截然不同。
第三方测评里的一个冷水:GPT-5.5 更强,也更爱答
第三方机构Artificial Analysis的测评给了GPT-5.5很高的评价,认为其在综合智能指数上领先3分,打破了此前三足鼎立的局面。同时指出,GPT-5.5的Token使用量比前代减少了约40%,因此尽管单价上涨,但完成整个评测的综合成本仅增加约20%。这对企业决策至关重要——一个单价更高的模型,如果它能减少弯路、避免废话、降低重试次数,最终的总成本可能反而更低。
但同一篇测评也提出了一个尖锐的提醒:在AA-Omniscience这项针对私有事实知识与幻觉的评测中,GPT-5.5 xhigh的准确率最高,但其幻觉率也高达86%;相比之下,Claude Opus 4.7 max的幻觉率为36%。这个数字当然不能简单外推到所有场景,但它揭示了一个关键问题:GPT-5.5那种“自信推进”的风格是一把双刃剑。它更愿意回答,更敢于行动,但同时也更依赖外部的校验机制、引用约束和工具闭环来确保可靠性。而Opus 4.7的“克制”,在某些场景下并非速度慢,而是在主动减少制造需要后续人工清理的“麻烦”。
详细对比:别问谁最强,要问你把它放在哪
我的实际选型建议
对于开发者而言,可以这样分配任务:
第一轮攻坚:需求拆解、项目脚手架搭建、终端操作、运行测试、排查依赖、编写自动化脚本——这类“从混沌中开辟道路”的工作,可以交给GPT-5.5。它在Terminal-Bench和GDPval上的优势,正对应这种“先把东西跑起来”的能力。
第二轮精修:代码审查、复杂Bug定位、架构边界厘清、多人协作下的PR质量把控——这类“确保生产环境稳定”的工作,更适合交给Opus 4.7。它在SWE-Bench Pro上的领先,以及Anthropic对自我验证和严格遵循指令的强调,都直指“别搞坏线上代码”这条生命线。
对于内容创作者或研究者,思路类似:
前期素材处理:资料搜集、网页浏览、大纲建立、对比表格生成、将碎片信息整合成初稿——这类“研究助理”型工作,GPT-5.5凭借其在BrowseComp和知识工作上的能力,用起来会更顺畅。
后期成稿打磨:最终成稿的逻辑修整、语气控制、删除过度自信或不确定的论断——如果你不希望文章读起来像模型的华丽表演,而更像一个人深思熟虑后的产物,那么Claude Opus 4.7的克制感会带来更多价值。
对于企业团队,建议则更为直接:不必二选一,应该建立路由机制。
将任务流大致分为三类:需要强力推进、调用多工具、跨系统执行的任务,路由给GPT-5.5;对代码正确性、审查质量、规则遵循有严苛要求的任务,路由给Opus 4.7;而简单的分类、摘要、格式转换等轻量级任务,则交给成本更优的模型。到了今天,模型选型早已不是信仰之争,而是资源调度问题。真正的价值不在于押中唯一的“王者”,而在于知道在什么场景下,该把任务派给谁。
这张榜单给我的感悟
看到这张榜单,第一反应并非是“OpenAI又赢了”,而是感到欣慰:评测标准终于越来越像真实的工作了。
过去的模型榜单,大多聚焦于MMLU、数学题、选择题——这些指标当然有价值,但它们和真实工作场景之间,始终隔着一层纱。真实工作不是回答一个问题,而是理解一个模糊目标、拆解实现路径、调用各种工具、遇到错误时调整策略、最终交付一个可用的成果。
GPT-5.5这次释放出的最强信号,恰恰是它在Terminal-Bench、GDPval、BrowseComp这些“工作流型”评测上的全面表现。它代表着一个明确的趋势:大模型正在从“问答机”向“执行系统”演进。
但与此同时,我们也越来越难以相信“单模型神话”。模型能力越强,其内在的“性格”就越重要。GPT-5.5的主动性和推进力是巨大优势,但也伴随着需要严格管控的风险。Opus 4.7的克制和稳健是其在关键场景下的护城河,但也可能在某些需要快速试错的任务中显得节奏稍慢。甚至Gemini 3.1 Pro,在BrowseComp中并未掉队,其价格和长上下文优势在特定场景下依然极具吸引力。
未来的智能化工作流,很可能不再是“采购一个最强模型”,而是“组建一个模型团队,每个成员性格鲜明、各有所长,然后根据任务特性,将其派发给最合适的那一位”。
最后怎么选
如果必须在两者中选一个作为通用智能体(Agent)的核心,那么GPT-5.5是更倾向的选择。它更像下一代人机交互的核心模型:能写代码、能操作终端、能理解屏幕信息、能检索资料、能生成文档,更重要的是,它能将一件模糊的事情持续向前推进。
如果需要一个严肃的代码协作伙伴,尤其是在生产环境相关的复杂任务中,那么Claude Opus 4.7的优势则难以忽视。它或许不是所有榜单上最耀眼的那一个,但它在真实代码修复、长程任务处理以及输出可靠性方面,气质更为沉稳。
用一句话总结:GPT-5.5是更强大的“执行者”,Opus 4.7是更可靠的“审查者”。前者擅长帮你把项目推动起来,后者擅长帮你规避路上的陷阱。最聪明的用法,或许是让它们彼此配合,相互制衡。