微软 GitHub 推出跨模型 AI 审查：Claude Sonnet 4.6 搭配 GPT-5.4，弥补 74.7% 性能差距

2026-05-03阅读 0热度 0

GitHub Claude GPT ChatGPT AI

微软GitHub推出跨模型AI审查：Claude Sonnet 4.6搭配GPT-5.4，弥补74.7%性能差距

最近，GitHub Copilot团队放出了一个有意思的新实验。4月6日，他们正式为Copilot CLI推出了一个名为“Rubber Duck”的实验性功能。这个功能的核心理念很直观：在代码规划阶段，给AI编程助手找个“第二双眼睛”来审查，结果让人有些意外——整体性能提升幅度接近75%。

为什么需要这个功能？在当前的AI编程场景里，智能体在早期规划阶段犯下的错误，常常会像滚雪球一样，被带到后续的实现和测试环节。更麻烦的是，如果只依赖单一模型进行自我审查，难免会陷入自身的训练偏差和认知盲区，有些问题自己就是看不出来。Rubber Duck功能的思路，正是为了解决这个痛点：引入一个来自不同模型家族的“异构审查者”，提供差异化的视角，从而把那些潜在的错误和疏漏给挖出来。

具体是怎么运作的呢？它采用了一种跨模型家族的组合策略。举个例子，当用户选择Claude系列模型作为主导智能体时，Rubber Duck功能就会自动调用GPT-5.4来扮演审查角色。这位“审查员”的核心任务，不是重新做一遍所有工作，而是专注检查智能体的输出，并生成一份高价值的“关注点清单”。这份清单里通常会包含被主模型遗漏的关键细节、值得推敲的假设，以及可能出现的边缘案例。

效果如何？官方博客用SWE-Bench Pro基准测试做了评估。他们对比了Claude Sonnet 4.6和性能更强的Claude Opus 4.6单独运行时的表现差距。结果发现，当为Sonnet 4.6配上Rubber Duck（使用GPT-5.4审查）之后，它成功弥合了与Opus 4.6之间高达74.7%的性能差距。这个数字，本身就很有说服力。

尤其在处理那些真正棘手的任务时——比如涉及3个以上文件修改，或者需要超过70步操作的问题——配备了Rubber Duck的Sonnet 4.6，其得分比基线版本高出3.8%。在实际案例中，这个机制已经成功捕捉到了诸如架构逻辑漏洞、循环覆盖不完整，以及跨文件修改冲突等深层问题。

在使用模式上，Rubber Duck提供了三种触发方式：主动、被动和用户手动触发。系统会在三个关键检查点自动寻求“第二意见”：在制定完初步计划后、完成复杂功能实现后，以及编写完测试代码后。此外，当系统检测到智能体可能陷入逻辑循环时，也会被动触发审查。为了确保整个过程足够透明，用户也可以随时主动请求一次审查，Copilot会清晰地展示审查反馈的内容以及后续修改的依据。

目前，这项功能已经以实验模式上线。想尝鲜的用户，在安装GitHub Copilot CLI后，运行 /experimental 命令即可启用。启用后，只需选择Claude模型作为主控，并确保拥有GPT-5.4的API访问权限，就能亲身体验这种“双模型协作”带来的效率提升了。

微软 GitHub 推出跨模型 AI 审查：Claude Sonnet 4.6 搭配 GPT-5.4，弥补 74.7% 性能差距

微软GitHub推出跨模型AI审查：Claude Sonnet 4.6搭配GPT-5.4，弥补74.7%性能差距

相关阅读

最新教程

最新资讯