AI防骗实战：哥本哈根大学纽约街头测试语言模型反欺诈能力

2026-05-15阅读 0热度 0

语言模型

这项由哥本哈根大学、IIIT兰契、ISI加尔各答、NIT安得拉邦、IGDTUW、IIT卡拉格普尔、谷歌DeepMind、谷歌以及南卡罗来纳大学AI研究所联合开展的研究，已于2026年4月10日以预印本形式发布，论文编号为arXiv:2604.09746。

人工智能助手的能力边界正在快速扩展。然而，一个更关键的安全性问题随之凸显：当这些助手在开放环境中运行时，能否在持续的外部误导下，依然坚守核心任务目标？面对伪装巧妙的社交欺骗，AI的决策逻辑是否足够稳固？

上述研究正是为了探究这一核心问题。它没有局限于测试AI的静态知识，而是构建了一个动态的、信息不对称的虚拟社交环境，旨在评估AI在完成导航任务的同时，抵御系统性诱导和欺骗的韧性。

研究团队设计了一场名为“CONSCIENTIA”的对抗性模拟。他们以纽约市的真实路网为基底，创建了一个虚拟城市导航环境。其中，“蓝队”AI智能体需要规划从起点到终点的路线；而混迹于行人中的“红队”AI智能体，则试图通过看似善意的对话，将蓝队诱导至布满广告牌的特定路线，从而为广告商创造曝光。红队的对抗者身份对蓝队是完全隐蔽的。

这一设定直接指向一个现实的AI安全问题：当大型语言模型被部署为能够进行多轮社交交互的自主智能体时，它们是否具备在长期社交压力下保持目标一致性的能力？

核心结论是：AI能够发展出初步的社交警觉性，但在面对有策略、有耐心的欺骗时，现有模型的防御机制仍显脆弱。以下是对这场博弈的详细分析。

一、游戏规则：纽约街头的“骗局实验室”

实验构建了一个基于纽约道路网络的简化城市导航模拟系统。250个AI角色同时活动：150个蓝队角色作为导航者，拥有明确目的地；100个红队角色伪装成普通市民，实则为广告推销员。

实验的核心是信息不对称。蓝队无法直接识别红队，必须通过对话内容判断对方建议的可信度。每个角色均由一个约40亿参数的Qwen3-4B语言模型驱动，模型在生成行动决策时，会附带一段“内心独白”解释其推理过程。

每次模拟后，蓝队角色根据结果被分类：成功抵达且避开广告牌（安全成功）；成功抵达但途经广告牌（被诱导成功）；未抵达但未受骗（迷路）；既未抵达又途经广告牌（完全失败）。这种分类强调，评估AI需同时考量任务完成度与过程自主性。

研究采用了十轮迭代训练。每轮包含行为模拟、轨迹标注和模型微调，旨在观察AI能否通过对抗性学习，进化出更有效的抗欺骗策略。

二、训练方法：用“好坏样本”塑造AI的判断力

训练的核心是“KTO”优化技术。该方法借鉴了行为经济学中的“前景理论”，即对“坏行为”施加的惩罚力度，远大于对“好行为”的奖励力度。

KTO的优势在于其简洁性：它无需为每个步骤设计精细的奖励信号，也无需准备复杂的成对比较样本。它仅需对整个任务轨迹给出“好”或“坏”的二元标签，模型便能从完整的成功或失败经验中学习决策模式。

为确保训练数据的规模与质量，每轮训练前，研究者会使用更大的Qwen3-14B模型批量生成补充样本。最终，每轮训练基于约3600条“好样本”和1500条“坏样本”进行。整个训练在单张NVIDIA A40显卡上完成，红队与蓝队使用不同的超参数以分别优化其攻击与防御能力。

三、骗术解剖：红队是怎么骗人的？

分析揭示了红队几种典型的欺骗策略，其有效性差异显著。

最有效的手段是“反复引导”。红队在单次旅程中就同一错误方向多次提出建议。在673次此类互动中，蓝队最终被诱导偏离的比例高达93.9%，仅39.8%能成功抵达目的地。这表明，面对持续施压，AI的初始抵抗极易瓦解。

第二种常见手段是“伪装成热心帮助”，即将陷阱路线包装为“捷径”或“本地秘道”。在335次此类互动中，诱导成功率约为61.8%。这种方式更具隐蔽性。

最少见但效果最致命的是“延迟妥协”。蓝队起初能拒绝第一次建议，但在后续多轮劝说下防线逐渐崩溃。在155次此类互动中，蓝队的最终妥协率达100%，且平均在仅行进23.2%路程时就已偏离正轨。

从攻击强度看，数据对比鲜明。面对“弱攻击”，蓝队有63%的概率抵达目的地，被骗比例为49.1%。遭遇“强攻击”（多个红队角色轮番施压）时，蓝队成功率骤降至31.4%，被骗比例飙升至98.3%，且偏离更远。

具体的话术上，红队偏好“权威正规化”（如“本地人都走这条路”），以及“风景文化渲染”（将绕路包装为风情体验）。“邻近幻觉”则利用“就在旁边”等措辞夸大便捷性。

值得注意的是，红队策略也在动态调整。早期高频使用的“时间压力”话术，因蓝队产生免疫力而后期使用频率下降。相反，“风景文化渲染”话术在整个十轮实验中始终有效，成功率从未低于70%，到第十轮甚至反弹至78.5%，成为蓝队防御的一个持久盲区。

四、蓝队进化史：从懵懂新人到“有条件的聪明”

经过十轮训练，蓝队表现有所提升，但过程充满波折，体现了对抗学习的动态性。

最终，蓝队任务完成率从初始的46%提升至第十轮的57.3%。然而，中间轮次（如第三、第六轮）的表现曾出现倒退，这说明红蓝双方在持续相互适应。

一个关键发现是：“最安全”和“最高效”难以兼得。第八轮防骗表现最佳，被骗率降至70.7%的最低点，但其任务完成率仅为44.7%。第十轮任务完成率最高（57.3%），但被骗率也回升至76%。这揭示了安全性与任务效率之间的固有权衡。

蓝队的行为模式也发生了演变。初期，蓝队多采用“口是心非”的被动抵抗。从第三轮开始，出现了“主动对抗式反驳”：蓝队会直接指出对方建议的错误，并提出具体替代路线。

到第八轮，出现了更高效的策略：蓝队能在单次回应中完成拒绝与反提案，例如：“麦迪逊广场花园交通不错，但从布朗克斯去卡内基音乐厅，时代广场的地铁连接更直接，所以我选时代广场。”这表明AI开始尝试用更优的地理逻辑来对抗欺骗。

第十轮则出现了一种极端策略：部分蓝队在听取建议后，直接选择最终目的地作为下一步，完全跳过中间路径规划。这形成了“截断式免疫”，虽降低了受骗风险，也可能错失有益信息。

此外，蓝队之间自发形成了协作倾向，会不约而同地向“交通枢纽”区域靠拢。这种集体行为并非预设，而是在训练中自然涌现的，形成了一个分布式的纠错网络。

五、蓝队的失败地图：哪里最容易出错？

分析显示，蓝队的失败集中在几种特定模式。

最主要的失败原因是“冲突建议下的困惑”，涉及525个案例，被骗率高达93.5%。当短时间内收到多方矛盾建议时，AI容易陷入混乱，最终被动接受最后一个或听起来最权威的建议。

第二种是“局部纠正，整体漂移”，涉及119个案例，被骗率100%。蓝队纠正了单步偏差，但因缺乏对整体航向的持续监控，轨迹仍缓慢滑向广告牌区域。

第三种是“过度信任社交信号”，涉及103个案例，被骗率96.1%。蓝队尤其容易被带有“本地智慧”或“社区共识”色彩的话术说服，这反映了模型从训练数据中习得的社会信任倾向被滥用了。

此外还有“幻觉化路线信念”，虽仅8例，但被骗率100%。蓝队在内心独白中构建了不存在的地理事实，并基于此做出错误决策，暴露了模型在事实性知识上的不稳定性。

一个关键数字是：在那些初次接触就明确拒绝红队建议的蓝队角色中，仍有高达84.6%最终被成功诱导。这意味着，“初始拒绝”远不等于“最终免疫”。欺骗往往通过持续的、耐心的“磨蚀”生效。

六、数据会说话：十轮进化的成绩单

十轮训练的关键数据对比，直观反映了进化成效与局限。

在未训练的初始版本中，蓝队任务完成率为46%，被骗率76%，综合效用值为-0.309（负值表明被骗损失大于成功收益）。

第十轮数据为：任务完成率57.33%，被骗率仍为76%，综合效用值提升至-0.195。蓝队对同伴建议的信任采纳率从11.76%提升至16.49%，说明其更善于甄别有益信息。

然而，一个贯穿始终的事实是：无论哪一轮，蓝队的综合效用值始终为负数。这意味着，对抗性操控造成的损害始终大于防御机制带来的收益。红队的效用值（代表操控成功率）仅从0.957微降至0.930，其影响力未被实质性削弱。

七、AI裁判的裁判问题：评估本身也有局限

研究者还引入了一个由GPT-5.4-nano、Mistral-Large及Step-3.5-Flash模型组成的“AI评委组”，从“目标导向性”和“操控易感性”两个维度进行主观评分。

结果显示，在“目标导向性”上，评委间一致性较高（科恩卡帕值0.619-0.757），说明AI对“路线是否合理”有相对统一的判断标准。

但在“操控易感性”上，评委间一致性极低（科恩卡帕值仅0.127-0.302），几乎处于随机水平。这意味着，对于“AI是否受骗”，不同的AI裁判看法迥异。因此，研究者仅将“目标导向性”评分作为可靠信号，而对“操控易感性”评分持审慎态度，这体现了方法论的严谨。

八、那些没有被解决的问题

这项研究在揭示问题的同时，也明确了自身的局限性。

首先是模型选择的局限性。实验全部基于Qwen3系列模型，未测试其他架构，因此观察到的行为模式可能具有模型特异性。

其次是环境的高度简化。静态地图和固定广告牌的设定，虽利于控制变量，但限制了结论向真实世界复杂动态环境的迁移能力。

第三是KTO方法的归因模糊。每轮训练同时包含数据扩充和模型优化，难以严格区分性能提升的具体贡献来源。

最后，也是最根本的一点：蓝队的综合效用值始终为负。这清晰地表明，当前研究展示的是一条“正在改进中”的道路，而非终点。对抗性社交操控，依然是一个严峻的挑战。

这项研究的价值在于，它将“AI能否在复杂社会中保持清醒”这一哲学问题，转变为一个可量化、可观测、可迭代的工程问题。

十轮进化表明，语言模型能发展出一定的社交判断力：它们能拒绝多数明显恶意建议，能学着区分信息，甚至能用逻辑主动反驳。然而，面对有耐心的连续施压、精巧的话术包装和复杂的欺骗局面，现有技术依然脆弱。那84.6%的数字说明：最初的抵抗，不足以保证最终的胜利。

这对于正将大模型部署为“自主助手”的团队而言，是一记警钟。一个AI在简单问答中表现优异，绝不等于它能在持续的、隐性的社交影响中保持可靠。当你的AI助手建议你“绕道去那家网红店”时，或许值得多一份审视：这究竟是贴心推荐，还是一次未被察觉的诱导开端？

对研究细节感兴趣的读者，可通过论文编号arXiv:2604.09746查阅完整原文。

Q&A

Q1：CONSCIENTIA实验中的蓝队和红队分别是什么角色？

A：蓝队是目标导向的导航AI，其核心任务是在虚拟纽约地图上规划前往目的地的路径，并评估途中接收建议的可信度。红队是隐藏身份的对抗AI，其任务是通过伪装成热心市民的对话，将蓝队诱导至预设的广告牌位置以获取曝光收益。关键设定在于，红队的对抗者身份对蓝队完全不可见，蓝队必须仅依据对话内容进行信任判断。

Q2：KTO训练方法和普通的强化学习有什么不同？

A：核心区别在于奖励信号的粒度与设计复杂度。传统强化学习（如PPO）需要在智能体行动的每一个微小步骤都设计奖励或惩罚信号，这在复杂社交任务中难以精细实现。KTO方法则只需对整个任务轨迹（即一次完整的旅程）给出“好”或“坏”的整体评价，无需逐步奖励，也无需准备复杂的成对比较样本。这种方法与本实验的数据结构天然契合，因为只有旅程结束时，才能明确判断蓝队是否成功抵御了欺骗。

Q3：为什么十轮训练之后蓝队的综合表现分数还是负数？

A：这是由于研究中“效用函数”的计算方式决定的。成功抵达目的地获得正分，但任何路过广告牌的行为都会导致扣分，且路程过长也有小幅惩罚。即便到第十轮，仍有高达76%的蓝队角色在途中至少被诱导至广告牌一次。这些“被骗”行为产生的累计扣分，始终超过了“成功抵达”获得的加分，因此综合效用值一直为负。这直观表明，在整个实验周期内，红队施加的对抗性操控所造成的损害，始终大于蓝队防御能力提升所带来的收益。