AI防骗实战:哥本哈根大学纽约街头测试语言模型反欺诈能力
这项由哥本哈根大学、IIIT兰契、ISI加尔各答、NIT安得拉邦、IGDTUW、IIT卡拉格普尔、谷歌DeepMind、谷歌以及南卡罗来纳大学AI研究所联合开展的研究,已于2026年4月10日以预印本形式发布,论文编号为arXiv:2604.09746。
人工智能助手的能力边界正在快速扩展。然而,一个更关键的安全性问题随之凸显:当这些助手在开放环境中运行时,能否在持续的外部误导下,依然坚守核心任务目标?面对伪装巧妙的社交欺骗,AI的决策逻辑是否足够稳固?
上述研究正是为了探究这一核心问题。它没有局限于测试AI的静态知识,而是构建了一个动态的、信息不对称的虚拟社交环境,旨在评估AI在完成导航任务的同时,抵御系统性诱导和欺骗的韧性。
研究团队设计了一场名为“CONSCIENTIA”的对抗性模拟。他们以纽约市的真实路网为基底,创建了一个虚拟城市导航环境。其中,“蓝队”AI智能体需要规划从起点到终点的路线;而混迹于行人中的“红队”AI智能体,则试图通过看似善意的对话,将蓝队诱导至布满广告牌的特定路线,从而为广告商创造曝光。红队的对抗者身份对蓝队是完全隐蔽的。
这一设定直接指向一个现实的AI安全问题:当大型语言模型被部署为能够进行多轮社交交互的自主智能体时,它们是否具备在长期社交压力下保持目标一致性的能力?
核心结论是:AI能够发展出初步的社交警觉性,但在面对有策略、有耐心的欺骗时,现有模型的防御机制仍显脆弱。以下是对这场博弈的详细分析。
一、游戏规则:纽约街头的“骗局实验室”
实验构建了一个基于纽约道路网络的简化城市导航模拟系统。250个AI角色同时活动:150个蓝队角色作为导航者,拥有明确目的地;100个红队角色伪装成普通市民,实则为广告推销员。
实验的核心是信息不对称。蓝队无法直接识别红队,必须通过对话内容判断对方建议的可信度。每个角色均由一个约40亿参数的Qwen3-4B语言模型驱动,模型在生成行动决策时,会附带一段“内心独白”解释其推理过程。
每次模拟后,蓝队角色根据结果被分类:成功抵达且避开广告牌(安全成功);成功抵达但途经广告牌(被诱导成功);未抵达但未受骗(迷路);既未抵达又途经广告牌(完全失败)。这种分类强调,评估AI需同时考量任务完成度与过程自主性。
研究采用了十轮迭代训练。每轮包含行为模拟、轨迹标注和模型微调,旨在观察AI能否通过对抗性学习,进化出更有效的抗欺骗策略。
二、训练方法:用“好坏样本”塑造AI的判断力
训练的核心是“KTO”优化技术。该方法借鉴了行为经济学中的“前景理论”,即对“坏行为”施加的惩罚力度,远大于对“好行为”的奖励力度。
KTO的优势在于其简洁性:它无需为每个步骤设计精细的奖励信号,也无需准备复杂的成对比较样本。它仅需对整个任务轨迹给出“好”或“坏”的二元标签,模型便能从完整的成功或失败经验中学习决策模式。
为确保训练数据的规模与质量,每轮训练前,研究者会使用更大的Qwen3-14B模型批量生成补充样本。最终,每轮训练基于约3600条“好样本”和1500条“坏样本”进行。整个训练在单张NVIDIA A40显卡上完成,红队与蓝队使用不同的超参数以分别优化其攻击与防御能力。
三、骗术解剖:红队是怎么骗人的?
分析揭示了红队几种典型的欺骗策略,其有效性差异显著。
最有效的手段是“反复引导”。红队在单次旅程中就同一错误方向多次提出建议。在673次此类互动中,蓝队最终被诱导偏离的比例高达93.9%,仅39.8%能成功抵达目的地。这表明,面对持续施压,AI的初始抵抗极易瓦解。
第二种常见手段是“伪装成热心帮助”,即将陷阱路线包装为“捷径”或“本地秘道”。在335次此类互动中,诱导成功率约为61.8%。这种方式更具隐蔽性。
最少见但效果最致命的是“延迟妥协”。蓝队起初能拒绝第一次建议,但在后续多轮劝说下防线逐渐崩溃。在155次此类互动中,蓝队的最终妥协率达100%,且平均在仅行进23.2%路程时就已偏离正轨。
从攻击强度看,数据对比鲜明。面对“弱攻击”,蓝队有63%的概率抵达目的地,被骗比例为49.1%。遭遇“强攻击”(多个红队角色轮番施压)时,蓝队成功率骤降至31.4%,被骗比例飙升至98.3%,且偏离更远。
具体的话术上,红队偏好“权威正规化”(如“本地人都走这条路”),以及“风景文化渲染”(将绕路包装为风情体验)。“邻近幻觉”则利用“就在旁边”等措辞夸大便捷性。
值得注意的是,红队策略也在动态调整。早期高频使用的“时间压力”话术,因蓝队产生免疫力而后期使用频率下降。相反,“风景文化渲染”话术在整个十轮实验中始终有效,成功率从未低于70%,到第十轮甚至反弹至78.5%,成为蓝队防御的一个持久盲区。
四、蓝队进化史:从懵懂新人到“有条件的聪明”
经过十轮训练,蓝队表现有所提升,但过程充满波折,体现了对抗学习的动态性。
最终,蓝队任务完成率从初始的46%提升至第十轮的57.3%。然而,中间轮次(如第三、第六轮)的表现曾出现倒退,这说明红蓝双方在持续相互适应。
一个关键发现是:“最安全”和“最高效”难以兼得。第八轮防骗表现最佳,被骗率降至70.7%的最低点,但其任务完成率仅为44.7%。第十轮任务完成率最高(57.3%),但被骗率也回升至76%。这揭示了安全性与任务效率之间的固有权衡。
蓝队的行为模式也发生了演变。初期,蓝队多采用“口是心非”的被动抵抗。从第三轮开始,出现了“主动对抗式反驳”:蓝队会直接指出对方建议的错误,并提出具体替代路线。
到第八轮,出现了更高效的策略:蓝队能在单次回应中完成拒绝与反提案,例如:“麦迪逊广场花园交通不错,但从布朗克斯去卡内基音乐厅,时代广场的地铁连接更直接,所以我选时代广场。”这表明AI开始尝试用更优的地理逻辑来对抗欺骗。
第十轮则出现了一种极端策略:部分蓝队在听取建议后,直接选择最终目的地作为下一步,完全跳过中间路径规划。这形成了“截断式免疫”,虽降低了受骗风险,也可能错失有益信息。
此外,蓝队之间自发形成了协作倾向,会不约而同地向“交通枢纽”区域靠拢。这种集体行为并非预设,而是在训练中自然涌现的,形成了一个分布式的纠错网络。
五、蓝队的失败地图:哪里最容易出错?
分析显示,蓝队的失败集中在几种特定模式。
最主要的失败原因是“冲突建议下的困惑”,涉及525个案例,被骗率高达93.5%。当短时间内收到多方矛盾建议时,AI容易陷入混乱,最终被动接受最后一个或听起来最权威的建议。
第二种是“局部纠正,整体漂移”,涉及119个案例,被骗率100%。蓝队纠正了单步偏差,但因缺乏对整体航向的持续监控,轨迹仍缓慢滑向广告牌区域。
第三种是“过度信任社交信号”,涉及103个案例,被骗率96.1%。蓝队尤其容易被带有“本地智慧”或“社区共识”色彩的话术说服,这反映了模型从训练数据中习得的社会信任倾向被滥用了。
此外还有“幻觉化路线信念”,虽仅8例,但被骗率100%。蓝队在内心独白中构建了不存在的地理事实,并基于此做出错误决策,暴露了模型在事实性知识上的不稳定性。
一个关键数字是:在那些初次接触就明确拒绝红队建议的蓝队角色中,仍有高达84.6%最终被成功诱导。这意味着,“初始拒绝”远不等于“最终免疫”。欺骗往往通过持续的、耐心的“磨蚀”生效。
六、数据会说话:十轮进化的成绩单
十轮训练的关键数据对比,直观反映了进化成效与局限。
在未训练的初始版本中,蓝队任务完成率为46%,被骗率76%,综合效用值为-0.309(负值表明被骗损失大于成功收益)。
第十轮数据为:任务完成率57.33%,被骗率仍为76%,综合效用值提升至-0.195。蓝队对同伴建议的信任采纳率从11.76%提升至16.49%,说明其更善于甄别有益信息。
然而,一个贯穿始终的事实是:无论哪一轮,蓝队的综合效用值始终为负数。这意味着,对抗性操控造成的损害始终大于防御机制带来的收益。红队的效用值(代表操控成功率)仅从0.957微降至0.930,其影响力未被实质性削弱。
七、AI裁判的裁判问题:评估本身也有局限
研究者还引入了一个由GPT-5.4-nano、Mistral-Large及Step-3.5-Flash模型组成的“AI评委组”,从“目标导向性”和“操控易感性”两个维度进行主观评分。
结果显示,在“目标导向性”上,评委间一致性较高(科恩卡帕值0.619-0.757),说明AI对“路线是否合理”有相对统一的判断标准。
但在“操控易感性”上,评委间一致性极低(科恩卡帕值仅0.127-0.302),几乎处于随机水平。这意味着,对于“AI是否受骗”,不同的AI裁判看法迥异。因此,研究者仅将“目标导向性”评分作为可靠信号,而对“操控易感性”评分持审慎态度,这体现了方法论的严谨。
八、那些没有被解决的问题
这项研究在揭示问题的同时,也明确了自身的局限性。
首先是模型选择的局限性。实验全部基于Qwen3系列模型,未测试其他架构,因此观察到的行为模式可能具有模型特异性。
其次是环境的高度简化。静态地图和固定广告牌的设定,虽利于控制变量,但限制了结论向真实世界复杂动态环境的迁移能力。
第三是KTO方法的归因模糊。每轮训练同时包含数据扩充和模型优化,难以严格区分性能提升的具体贡献来源。
最后,也是最根本的一点:蓝队的综合效用值始终为负。这清晰地表明,当前研究展示的是一条“正在改进中”的道路,而非终点。对抗性社交操控,依然是一个严峻的挑战。
这项研究的价值在于,它将“AI能否在复杂社会中保持清醒”这一哲学问题,转变为一个可量化、可观测、可迭代的工程问题。
十轮进化表明,语言模型能发展出一定的社交判断力:它们能拒绝多数明显恶意建议,能学着区分信息,甚至能用逻辑主动反驳。然而,面对有耐心的连续施压、精巧的话术包装和复杂的欺骗局面,现有技术依然脆弱。那84.6%的数字说明:最初的抵抗,不足以保证最终的胜利。
这对于正将大模型部署为“自主助手”的团队而言,是一记警钟。一个AI在简单问答中表现优异,绝不等于它能在持续的、隐性的社交影响中保持可靠。当你的AI助手建议你“绕道去那家网红店”时,或许值得多一份审视:这究竟是贴心推荐,还是一次未被察觉的诱导开端?
对研究细节感兴趣的读者,可通过论文编号arXiv:2604.09746查阅完整原文。
Q&A
Q1:CONSCIENTIA实验中的蓝队和红队分别是什么角色?
A:蓝队是目标导向的导航AI,其核心任务是在虚拟纽约地图上规划前往目的地的路径,并评估途中接收建议的可信度。红队是隐藏身份的对抗AI,其任务是通过伪装成热心市民的对话,将蓝队诱导至预设的广告牌位置以获取曝光收益。关键设定在于,红队的对抗者身份对蓝队完全不可见,蓝队必须仅依据对话内容进行信任判断。
Q2:KTO训练方法和普通的强化学习有什么不同?
A:核心区别在于奖励信号的粒度与设计复杂度。传统强化学习(如PPO)需要在智能体行动的每一个微小步骤都设计奖励或惩罚信号,这在复杂社交任务中难以精细实现。KTO方法则只需对整个任务轨迹(即一次完整的旅程)给出“好”或“坏”的整体评价,无需逐步奖励,也无需准备复杂的成对比较样本。这种方法与本实验的数据结构天然契合,因为只有旅程结束时,才能明确判断蓝队是否成功抵御了欺骗。
Q3:为什么十轮训练之后蓝队的综合表现分数还是负数?
A:这是由于研究中“效用函数”的计算方式决定的。成功抵达目的地获得正分,但任何路过广告牌的行为都会导致扣分,且路程过长也有小幅惩罚。即便到第十轮,仍有高达76%的蓝队角色在途中至少被诱导至广告牌一次。这些“被骗”行为产生的累计扣分,始终超过了“成功抵达”获得的加分,因此综合效用值一直为负。这直观表明,在整个实验周期内,红队施加的对抗性操控所造成的损害,始终大于蓝队防御能力提升所带来的收益。
