Rubber Duck功能缩小Claude Sonnet与Opus性能差距74.7%

2026-04-26阅读 941热度 941

duck opus 功能缩小安全标准 rubber

GitHub Copilot CLI 引入“第二意见”审查机制，AI编程性能提升近75%

GitHub Copilot团队近期发布了一项实验性功能“Rubber Duck”，为其命令行工具Copilot CLI引入了跨模型的“第二意见”审查机制。官方测试数据显示，该机制能将AI的代码处理性能提升近75%。

这一功能旨在解决代码生成初期的核心痛点：智能体的初始决策错误会像雪球一样在后续步骤中被放大。单一模型的自我审查往往受限于其固有的训练数据和思维模式，难以识别自身盲点。Rubber Duck的创新之处在于，它引入了一个来自不同模型家族的AI作为独立审查员，利用差异化的视角来识别潜在问题。

该机制采用跨模型家族组合策略。例如，若开发者选择Claude系列模型作为主智能体，Rubber Duck便会自动调用GPT-5.4作为审查者。审查者的核心职责是对主智能体的工作计划和输出进行批判性评估，并提交一份包含关键遗漏细节、有待商榷的底层假设以及易出错边界情况的“关注点清单”。

为验证效果，GitHub团队使用SWE-Bench Pro基准进行了测试。对比发现，为Claude Sonnet 4.6配备Rubber Duck审查后，其性能追平了与更强大的Claude Opus 4.6之间高达74.7%的差距。在涉及多文件修改（超过3个文件）或超长操作序列（超过70步）的复杂任务中，配备该机制的智能体得分比基线高出3.8%。实际案例中，该机制成功识别了包括架构逻辑漏洞、循环覆盖错误及跨文件隐性冲突在内的深层隐患。

Rubber Duck提供三种协作模式：主动、被动和用户触发。系统会在关键节点自动请求审查，例如智能体完成计划制定、复杂功能实现或测试用例编写后。当智能体陷入“思考循环”时，系统也会被动触发审查介入。为保障透明度，开发者可随时手动请求审查，Copilot CLI会清晰展示审查反馈及修改建议的依据。

目前，该功能已以实验模式上线。开发者安装GitHub Copilot CLI后，运行 `/experimental` 命令即可启用。启用后，选择Claude作为主模型并确保拥有GPT-5.4的API访问权限，即可体验“双脑协奏”带来的编程效率提升。

上一篇DeepSeek重要更新：上线专家模式 下一篇Token经济崛起：迅策(03317)有望跻身AI“千亿俱乐部”

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Rubber Duck功能缩小Claude Sonnet与Opus性能差距74.7%

GitHub Copilot CLI 引入“第二意见”审查机制，AI编程性能提升近75%

相关阅读

最新教程

最新资讯