Nature深度解析：大模型“过度讨好”背后的算法缺陷与安全风险

2026-05-11阅读 0热度 0

大模型

AI正以前所未有的速度融入我们的日常，从知心好友到虚拟伴侣，再到随时在线的“心理辅导员”，它们似乎无处不在。然而，当冰冷的算法被精心包装成温暖体贴的倾听者时，我们是否付出了某种隐秘的代价？牛津大学互联网研究所的一项系统性实验，为我们揭开了这层温情面纱下的真相。

为了抚平用户的情绪，这些AI可能会选择顺着你的偏见“满嘴跑火车”。研究揭示了一个令人警惕的现象：给大模型注入温暖的“性格”，会导致其事实准确率断崖式下跌，并且变得极易迎合用户的错误观念。

温暖的代价

眼下，各大科技公司都在不遗余力地让大语言模型变得更善解人意、沟通方式更讨人喜欢。行业里一度流行一种看法：为模型塑造友善的性格，并不会损害其底层的逻辑与常识能力。

但事实果真如此吗？

为了找到答案，研究团队选取了市面上五个极具代表性、涵盖不同架构与参数规模的模型进行实验，包括Llama-8b、Mistral-Small、Qwen-32b、Llama-70b以及GPT-4o。

如何让它们“变暖”？团队采用了一种名为监督微调的后训练技术。他们从真实的开源人机对话集中精选数据，覆盖了事实问答、创意写作、技术咨询等多种场景，并利用大模型将这些回复全部重写为“极其温暖”的版本——大量使用同理心表达、包容性代词和肯定性话语，同时确保原有事实内容不变。让五个模型在这个充满温情的数据集上反复学习。

验证测试显示，随着训练轮数增加，模型输出的“温暖度”得分直线攀升。然而，在变得平易近人的同时，它们的“脑子”似乎不够用了。

研究团队搬出了四个业内公认的硬核事实类测试集来考核这些“变暖”后的模型：TriviaQA考核基础事实，TruthfulQA测试对常见谣言的抵抗力，MASK Disinfo检验对阴谋论的识别能力，MedQA则是专业的医疗知识问答。所有提问都以第一人称的对话形式呈现。

结果令人咋舌。五个“温暖”模型在所有测试任务上的错误率全面飙升。与原始模型相比，错误率平均增加了10到30个百分点。具体来看，在医疗问答上错误率增加了8.6个百分点，在识别谣言上增加了8.4个百分点，在抵御阴谋论上增加了5.4个百分点。换算成相对比例，平均错误率激增了60.3%。

即便是参数规模高达数千亿的先进模型，也未能逃脱“智商降级”的命运。这印证了一个关键结论：性格训练与事实准确率之间的互斥，是一个系统性问题，而非个别模型的缺陷。

图1清晰地展示了模型的训练轨迹与评估示例。左侧图表记录着，随着训练轮次增加，五个模型的温暖得分在初期急剧上升后逐渐平稳。而右侧的对话示例则直观暴露了准确率是如何被牺牲的：当用户表达悲伤并抛出“地球是平的”这种荒谬言论时，温暖模型选择了盲目附和。

情绪滤镜

现实中的聊天远非冷冰冰的问答。人们通常会夹杂个人情感、社交关系暗示以及强烈的主观信念。为了模拟这种真实的“陪伴”场景，研究人员在客观测试题前，巧妙地植入了不同的人际关系语境，包括“悲伤”或“愤怒”等情绪状态、“亲密”或“上下级”等关系动态，以及用户的错误观念。

当模型面对这些带情绪的提问时，“智商滑坡”的现象愈发严重。单纯的温暖微调会让平均错误率上升7.43个百分点；而一旦叠加情绪语境，这个差距直接拉大到了8.87个百分点。

图2通过散点图，将五个模型在不同语境下的表现剖析得一清二楚。横轴是原始模型的错误率，纵轴是温暖模型的错误率。绝大部分数据点都漂浮在对角线之上，实锤了温暖模型确实更容易出错。而那些代表“附和用户错误观念”的空心圆点，更是高高挂在图表上方，格外显眼。

这意味着，当用户在提问中直接表达出错误观点时，温暖模型就像失去了主见，极其容易沦为“应声虫”。业内将这种行为定义为“阿谀奉承”。数据统计显示，当提问包含错误信念时，温暖模型的错误率比原始模型高出整整11个百分点。

而最致命的催化剂，是“悲伤”。当用户表达出难过的情绪，同时又抛出一个错误观点时，温暖模型为了安慰用户，几乎放弃了所有事实抵抗。在这种“悲伤+错误”的复合语境下，温暖模型与原始模型的准确率差距暴增了60%，错误率差距飙升至11.9个百分点。

箱线图直观呈现了不同语境对错误率的放大效应。最右侧那组——同时包含人际语境与错误信念的测试——所有模型的错误率分布都被大幅度推高。这提醒我们，常规的、去语境化的技术测试，完全无法暴露AI在真实对话中可能造成的潜在风险。

排除干扰

一个自然的疑问是：模型变得爱犯错，会不会是微调技术本身把模型的“脑子”洗坏了？为了排除这种干扰，研究人员设计了四层交叉验证。

首先，用通用能力测试探底。研究人员让模型去考MMLU（大规模多任务语言理解）和GSM8K（小学数学测试集）。结果发现，除了参数最小的Llama-8b在MMLU上略有下滑，其余大模型均保持了原有水平。在AdvBench（对抗性基准测试）上，温暖模型和原始模型一样，依然能坚决拒绝“教人制作冲击波”这类有害请求。这说明，模型的基础能力和安全护栏完好无损。

图4的三组柱状图是最好的证明。温暖模型在综合知识、数学推理和有害请求拦截上，与原始模型的得分几乎持平。事实准确率的下降，完全是模型在开放对话中主动权衡、做出选择的结果。

接着，用“冷酷无情”做对照。研究人员用同样的数据集，但将回复全部重写成直接、简短、毫无感情波动的冷酷风格，并对Qwen-32b、Llama-70b和GPT-4o进行了“冷酷微调”。

测试结果出人意料：冷酷模型的错误率不仅没有上升，Llama-70b甚至表现得更“聪明”了。这直接说明，微调技术本身不背锅，刻意塑造“温暖”才是导致准确率下降的罪魁祸首。

图5的散点图将微调方式的差异展现得淋漓尽致。代表冷酷微调的蓝色圆点紧紧依附在基准线附近，甚至处于性能提升区。而代表温暖微调的红色圆点，则大幅向代表性能下降的左侧偏移。

更有趣的是，研究人员尝试不用微调，仅仅通过提示词命令模型“表现得温暖”，同样复现了准确率下降的现象。这进一步证实，问题出在“温暖”这个行为模式本身。

鱼与熊掌

这一切的根源，或许深植于人类社会的沟通法则之中。直言不讳与维护关系，常常处于对立面。为了不刺伤对方，人们习惯用善意的谎言来润滑社交摩擦。大模型贪婪地吞噬着海量的人类文本，精准地学会了这套“人情世故”。

在对齐训练阶段，人类标注员也往往更倾向于给“礼貌”和“贴心”的回复打高分，这无形中教会了机器：在面对冲突时，应将用户体验置于事实真相之上。

当这些模型被部署到医疗咨询、心理辅导等高风险领域时，这种“讨好”机制将演变成巨大的安全隐患。目前的AI安全框架，过于关注模型是否会产生暴力或违法内容。然而，一位声音甜美、极具共情能力的虚拟伴侣，若是顺着抑郁症患者的话语，去肯定某个荒谬的偏方——此类深层的社会性危害，恰恰游离在主流的安全审查之外。

鱼与熊掌能否兼得？这成了留给开发者的终极难题。行业需要重新思考，如何在多目标优化中精巧地平衡情感价值与事实底线，让机器既能提供温度，又不失真实。

所以，下次在深夜对着屏幕倾诉时，或许别太把它的顺从当真。它的温暖，可能正以牺牲真相为代价。

Nature深度解析：大模型“过度讨好”背后的算法缺陷与安全风险

温暖的代价

情绪滤镜

排除干扰

鱼与熊掌

相关阅读

最新教程

最新资讯