GPT5.5+Codex对比Opus4.7:测评推荐
近期密集测试了国产模型,反而对 GPT-5.5 的跟进有所滞后。不过,抽空尝试了 Codex + GPT-5.5 + Browser Use 这套组合,效果令人惊艳——最核心的变化在于:GPT-5.5 不再那么“油滑”,冗余表述大幅减少,感觉像换了一个人。
先看网页版的表现。针对同一问题,新版 Auto 模式与新版 5.5 Thinking 模式分别输出:
两种模式下的行话套话都大幅缩减,表达趋于自然。尤其是 5.5 Thinking 模式,更加精炼,表情符号的使用也显著减少。
再看另一个案例:
两种模式均摒弃了“一句话总结,结论先行”这类模板化表达,直接以“一句话:”开头,字数明显压缩。那种把用户当小白的感觉基本消失。5.5 Thinking 更加简短,表情包几乎消失,过度堆叠括号和破折号的毛病也不见了。
显然,GPT 确实变了,变得让人一时难以适应——它不再能稳稳接住那种未经修饰的随意对话。
接着聊聊写代码。让 GPT-5.5 协助修改了一个小需求:
这个需求主要是做修改。CodingPlan 测试平台新增了一个思考能力选项,但思考预算的设置部分存在一个小 bug,需要优化。它检索了相关资料并完成修改,耗时约 7 分 29 秒:
改动非常到位。从修改总结可以看出:先移除了原始步进限制(step={1024} 改为 step={1},避免浏览器原生校验拦截);新增了常用预算下拉选项(1024 / 2048 / 4096 / 8000 / 12000 / 16000 / 32000),同时保留自定义输入;新增平台时自动保存 thinkingConfig,防止新配置丢失;此外还处理了 max_tokens 必须大于 budget_tokens 的问题,做了自动抬高默认值的处理。功能虽不大,但完成度很高。
但最让人意外的是——它自动执行了功能验证。
这个验证并非写在代码层面,而是直接调用浏览器,操控鼠标进行真实操作:鼠标自动移动,自行添加平台、切换思考模式、验证修改功能。Browser Use 这套能力非常实用,前端开发与测试做到这一步,基本能形成闭环。
除了浏览器操控,Codex 的开发功能也相当齐全:
可一键运行项目、用 Git 管理版本、打开终端、查看文件目录、审查并修改代码。Computer Use 在 Windows 上同样流畅,各类软件安装配置都非常顺滑。如果缺少开发环境,它会自动安装;遇到大的改动会先询问,确认后再继续执行。
综合来看,Codex + GPT-5.5 + 电脑/浏览器操作,已经是一套相当成熟的开发工具。
之前最青睐 Claude Code + Chrome 插件组合,如今 Codex 对电脑和浏览器的操控似乎比那套组合还要顺畅。另外 GPT 还有两个天然优势:基本不用担心封号风险,配额也比 Opus 多。目前的策略是:硬核的、需要开疆拓土的任务交给 Opus 4.7 攻克,一旦难题解决,后续工作就交给 Codex 接手。当然,Opus 仍然是手里最猛的猛将,不会真的放弃。