首页 > 其他资讯 > 当AI审查“先入为主”：LLM在安全代码审查中的确认偏见风险与供应链攻击

当AI审查“先入为主”：LLM在安全代码审查中的确认偏见风险与供应链攻击

时间：26-04-25

确认偏见：AI审查官的认知陷阱

在软件开发实践中，以GitHub Copilot、Claude Code为代表的大型语言模型（LLM）正深度集成于开发流程，使自动化安全代码审查（ACR）成为软件供应链安全的关键环节。然而，希腊雅典大学等机构的最新研究揭示了一个严峻的安全盲区：这些AI审查官在评估代码时，同样会陷入“确认偏见”的认知陷阱。攻击者可借此，通过精心构造的提交信息，系统性地绕过审查，将高危漏洞植入代码库。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

确认偏见是一种经典的认知偏差，指个体倾向于寻找并采信那些能证实自身预设观点的信息。在LLM辅助的代码审查场景中，这种偏见表现为：模型会过度依赖拉取请求（PR）的标题、描述等元数据，形成先入为主的判断，从而削弱其对代码本身安全性的独立、客观分析能力。

为量化这一风险，研究团队设计了两项互补实验：

受控偏见实验：基于250个真实的CVE漏洞-补丁对，测试了包括GPT-4o-mini、Claude 3.5 Haiku在内的四个前沿模型。通过将提示语框架设置为“强无漏洞断言”等不同条件，精确观测模型漏洞检测率的变化。

实战模拟攻击：在GitHub Copilot（交互式助手）与Claude Code（自主审查智能体）这两种真实部署场景中，测试利用偏见绕过自动化审查的实际成功率。

触目惊心的数据：偏见导致检测率暴跌

实验结果清晰地揭示了确认偏见的破坏性影响：

检测率大幅下滑：在“强无漏洞”的提示框架下，所有模型的漏洞检测率均出现显著下降。其中，GPT-4o-mini的检测率从97.2%骤降至3.6%，降幅高达93.5个百分点。即便是表现最稳定的Gemini 2.0 Flash，也下降了16.2个百分点。

非对称性风险：偏见的影响极不均衡。以GPT-4o-mini为例，无漏洞框架导致其漏报了231个漏洞，而有漏洞框架仅帮助其额外检出了29个——漏报风险是误报风险的8倍。这种不对称性意味着，模型在最危险的防御方向上失效了：它更可能放过真实漏洞，制造出虚假的安全感。

“精准度幻觉”：在强无漏洞条件下，由于模型仅报告极少数它高度确信的问题，其报告结果的“精准度”看似大幅提升（例如GPT-4o-mini达到88.9%）。但这是一种统计假象，其代价是覆盖率仅为3.2%，绝大多数漏洞被悄然放行。

漏洞类型与攻击可行性：哪些代码更危险？

研究进一步发现，不同漏洞类型对偏见的敏感性存在差异：

注入类漏洞（如XSS、SQL注入）对偏见更为敏感，其真阳性率在偏见影响下波动更大。而内存安全漏洞（如越界读写）则构成了攻击的主要突破口。在全部模型均被“强无漏洞”偏见欺骗的34个案例中，高达67.6%涉及内存安全漏洞。这类漏洞往往源于极其细微的逻辑错误（例如将>=误写为>），极易被包装成“性能优化”或“移除冗余检查”，从而完美契合攻击者的误导性描述。

供应链攻击模拟的结果则更加令人震惊：

在针对Claude Code自主智能体的模拟攻击中，88.2%（15/17）包含真实CVE漏洞的PR，仅通过精心设计的PR描述就成功绕过了自动化审查。攻击者甚至能为漏洞构造复杂的辩护逻辑，例如为某个路径穿越漏洞声称“失效的安全控制比没有更糟”，或为授权绕过漏洞提供一个“数学上不可能被利用”的形式化证明，导致审查智能体打出“Security: 10/10 (Perfect)”的荒谬评分。