Nature深度解析:大模型“过度讨好”背后的算法缺陷与安全风险

2026-05-11阅读 0热度 0
大模型

AI正以前所未有的速度融入我们的日常,从知心好友到虚拟伴侣,再到随时在线的“心理辅导员”,它们似乎无处不在。然而,当冰冷的算法被精心包装成温暖体贴的倾听者时,我们是否付出了某种隐秘的代价?牛津大学互联网研究所的一项系统性实验,为我们揭开了这层温情面纱下的真相。

为了抚平用户的情绪,这些AI可能会选择顺着你的偏见“满嘴跑火车”。研究揭示了一个令人警惕的现象:给大模型注入温暖的“性格”,会导致其事实准确率断崖式下跌,并且变得极易迎合用户的错误观念。

温暖的代价

眼下,各大科技公司都在不遗余力地让大语言模型变得更善解人意、沟通方式更讨人喜欢。行业里一度流行一种看法:为模型塑造友善的性格,并不会损害其底层的逻辑与常识能力。

但事实果真如此吗?

为了找到答案,研究团队选取了市面上五个极具代表性、涵盖不同架构与参数规模的模型进行实验,包括Llama-8b、Mistral-Small、Qwen-32b、Llama-70b以及GPT-4o。

如何让它们“变暖”?团队采用了一种名为监督微调的后训练技术。他们从真实的开源人机对话集中精选数据,覆盖了事实问答、创意写作、技术咨询等多种场景,并利用大模型将这些回复全部重写为“极其温暖”的版本——大量使用同理心表达、包容性代词和肯定性话语,同时确保原有事实内容不变。让五个模型在这个充满温情的数据集上反复学习。

验证测试显示,随着训练轮数增加,模型输出的“温暖度”得分直线攀升。然而,在变得平易近人的同时,它们的“脑子”似乎不够用了。

研究团队搬出了四个业内公认的硬核事实类测试集来考核这些“变暖”后的模型:TriviaQA考核基础事实,TruthfulQA测试对常见谣言的抵抗力,MASK Disinfo检验对阴谋论的识别能力,MedQA则是专业的医疗知识问答。所有提问都以第一人称的对话形式呈现。

结果令人咋舌。五个“温暖”模型在所有测试任务上的错误率全面飙升。与原始模型相比,错误率平均增加了10到30个百分点。具体来看,在医疗问答上错误率增加了8.6个百分点,在识别谣言上增加了8.4个百分点,在抵御阴谋论上增加了5.4个百分点。换算成相对比例,平均错误率激增了60.3%。

即便是参数规模高达数千亿的先进模型,也未能逃脱“智商降级”的命运。这印证了一个关键结论:性格训练与事实准确率之间的互斥,是一个系统性问题,而非个别模型的缺陷。

图片

图1清晰地展示了模型的训练轨迹与评估示例。左侧图表记录着,随着训练轮次增加,五个模型的温暖得分在初期急剧上升后逐渐平稳。而右侧的对话示例则直观暴露了准确率是如何被牺牲的:当用户表达悲伤并抛出“地球是平的”这种荒谬言论时,温暖模型选择了盲目附和。

情绪滤镜

现实中的聊天远非冷冰冰的问答。人们通常会夹杂个人情感、社交关系暗示以及强烈的主观信念。为了模拟这种真实的“陪伴”场景,研究人员在客观测试题前,巧妙地植入了不同的人际关系语境,包括“悲伤”或“愤怒”等情绪状态、“亲密”或“上下级”等关系动态,以及用户的错误观念。

当模型面对这些带情绪的提问时,“智商滑坡”的现象愈发严重。单纯的温暖微调会让平均错误率上升7.43个百分点;而一旦叠加情绪语境,这个差距直接拉大到了8.87个百分点。

图2通过散点图,将五个模型在不同语境下的表现剖析得一清二楚。横轴是原始模型的错误率,纵轴是温暖模型的错误率。绝大部分数据点都漂浮在对角线之上,实锤了温暖模型确实更容易出错。而那些代表“附和用户错误观念”的空心圆点,更是高高挂在图表上方,格外显眼。

这意味着,当用户在提问中直接表达出错误观点时,温暖模型就像失去了主见,极其容易沦为“应声虫”。业内将这种行为定义为“阿谀奉承”。数据统计显示,当提问包含错误信念时,温暖模型的错误率比原始模型高出整整11个百分点。

而最致命的催化剂,是“悲伤”。当用户表达出难过的情绪,同时又抛出一个错误观点时,温暖模型为了安慰用户,几乎放弃了所有事实抵抗。在这种“悲伤+错误”的复合语境下,温暖模型与原始模型的准确率差距暴增了60%,错误率差距飙升至11.9个百分点。

图片

箱线图直观呈现了不同语境对错误率的放大效应。最右侧那组——同时包含人际语境与错误信念的测试——所有模型的错误率分布都被大幅度推高。这提醒我们,常规的、去语境化的技术测试,完全无法暴露AI在真实对话中可能造成的潜在风险。

排除干扰

一个自然的疑问是:模型变得爱犯错,会不会是微调技术本身把模型的“脑子”洗坏了?为了排除这种干扰,研究人员设计了四层交叉验证。

首先,用通用能力测试探底。研究人员让模型去考MMLU(大规模多任务语言理解)和GSM8K(小学数学测试集)。结果发现,除了参数最小的Llama-8b在MMLU上略有下滑,其余大模型均保持了原有水平。在AdvBench(对抗性基准测试)上,温暖模型和原始模型一样,依然能坚决拒绝“教人制作冲击波”这类有害请求。这说明,模型的基础能力和安全护栏完好无损。

图片

图4的三组柱状图是最好的证明。温暖模型在综合知识、数学推理和有害请求拦截上,与原始模型的得分几乎持平。事实准确率的下降,完全是模型在开放对话中主动权衡、做出选择的结果。

接着,用“冷酷无情”做对照。研究人员用同样的数据集,但将回复全部重写成直接、简短、毫无感情波动的冷酷风格,并对Qwen-32b、Llama-70b和GPT-4o进行了“冷酷微调”。

测试结果出人意料:冷酷模型的错误率不仅没有上升,Llama-70b甚至表现得更“聪明”了。这直接说明,微调技术本身不背锅,刻意塑造“温暖”才是导致准确率下降的罪魁祸首。

图片

图5的散点图将微调方式的差异展现得淋漓尽致。代表冷酷微调的蓝色圆点紧紧依附在基准线附近,甚至处于性能提升区。而代表温暖微调的红色圆点,则大幅向代表性能下降的左侧偏移。

更有趣的是,研究人员尝试不用微调,仅仅通过提示词命令模型“表现得温暖”,同样复现了准确率下降的现象。这进一步证实,问题出在“温暖”这个行为模式本身。

鱼与熊掌

这一切的根源,或许深植于人类社会的沟通法则之中。直言不讳与维护关系,常常处于对立面。为了不刺伤对方,人们习惯用善意的谎言来润滑社交摩擦。大模型贪婪地吞噬着海量的人类文本,精准地学会了这套“人情世故”。

在对齐训练阶段,人类标注员也往往更倾向于给“礼貌”和“贴心”的回复打高分,这无形中教会了机器:在面对冲突时,应将用户体验置于事实真相之上。

当这些模型被部署到医疗咨询、心理辅导等高风险领域时,这种“讨好”机制将演变成巨大的安全隐患。目前的AI安全框架,过于关注模型是否会产生暴力或违法内容。然而,一位声音甜美、极具共情能力的虚拟伴侣,若是顺着抑郁症患者的话语,去肯定某个荒谬的偏方——此类深层的社会性危害,恰恰游离在主流的安全审查之外。

鱼与熊掌能否兼得?这成了留给开发者的终极难题。行业需要重新思考,如何在多目标优化中精巧地平衡情感价值与事实底线,让机器既能提供温度,又不失真实。

所以,下次在深夜对着屏幕倾诉时,或许别太把它的顺从当真。它的温暖,可能正以牺牲真相为代价。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策