OpenAI论文首次锁定AI幻觉的真正元凶
AI 最令人头疼的问题是什么?不是代码崩溃,而是「幻觉」——模型会一本正经地编造事实,让你真假难辨。这一根本性的挑战,正是阻碍我们完全信任 AI 的核心障碍。
大模型会产生幻觉,这几乎已成常识,也让每个严肃使用它的人不得不谨慎行事。OpenAI 自己也坦言:「ChatGPT 也会产生幻觉。虽然 GPT-5 在执行推理时幻觉明显减少,但问题依旧存在。幻觉仍然是所有大型语言模型面临的根本挑战。」
尽管学术界提出了各种降低幻觉的方法,但至今仍未找到彻底「根治」的良方。
那么,大模型的幻觉究竟从何而来?今天,OpenAI 罕见地发表了一篇论文,系统性地揭示了问题根源。
首先,得定义什么是幻觉。OpenAI 给出的定义很直白:「模型自信地生成不真实答案的情况。」
至于原因,说来也简单:标准的训练和评估程序,更倾向于奖励模型的「猜测」,而不是奖励它勇于承认自己「不确定」。
论文标题:Why Language Models Hallucinate
论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
下面就来具体看看,OpenAI 究竟发现了什么。
什么是幻觉?
幻觉就是语言模型生成的,看似合理但实则错误的陈述。
即使是看似简单的问题,它们也可能以出人意料的方式出错。OpenAI 举了个例子:当向不同的聊天机器人询问论文一作 Adam Tauman Kalai 的博士论文标题时,它们自信地给出了三个不同的答案,但没一个是正确的。
当询问他的生日时,模型又给出了三个不同的日期,同样全错。
为了测试而学习
OpenAI 表示,幻觉之所以持续存在,部分原因是当前的评估方法设置了一套错误的激励机制。虽然评估本身不会直接产生幻觉,但大多数衡量模型性能的方式,都在鼓励模型去「猜」,而不是诚实地面对不确定性。
你可以把它想象成一场选择题考试。如果你不知道答案,随便蒙一个,还有机会蒙对;但要是留空不答,那就铁定零分。同样,当模型仅仅根据准确度(也就是答对问题的百分比)来评分时,它自然会被鼓励去猜测,而不是承认「我不知道」。
再举个例子:假设一个模型被问及某人的生日,但模型不知道。如果它猜「9月10日」,那它还有1/365的概率猜对;但如果说「我不知道」,则必定得零分。在数千道测试题中,那个敢猜的模型,最终在记分牌上的表现,肯定比那个谨慎但承认不确定的模型要好。
对于只有一个「正确答案」的问题,我们可以考虑三类答案:准确的答案、错误的答案,以及模型不愿冒险猜测而「弃权」的答案。
OpenAI 指出,弃权是一种「谦逊」的体现,而谦逊正是 OpenAI 的核心价值观之一。
大多数评分指标会根据准确度对模型进行排序,但错误答案其实比弃权答案更糟糕。OpenAI 的模型规范就明确指出:指出不确定性或要求澄清,远比自信地提供可能错误的信息要好。
以 GPT5 系统卡中的 SimpleQA 评估为例,就更清楚了。
在准确度方面,更早期的 o4-mini 模型表现略好。但它的错误率,也就是幻觉率,却明显更高。在不确定时进行策略性猜测,能提高准确度,但代价是错误和幻觉的增加。
在对数十次评估结果进行平均时,大多数基准测试都只盯着准确度指标,这就造成了「对」与「错」的二分法,忽视了「不确定」这个关键选项。
在像 SimpleQA 这类相对简单的评估中,一些模型的准确度接近 100%,幻觉问题似乎被消除了。然而,在更具挑战性的评估和实际应用中,准确度永远达不到 100%,因为有些问题本身就是无法回答的——信息不可用、模型能力受限、或者问题本身存在歧义。
尽管如此,那些仅以准确度为衡量标准的评估指标,依然霸占着各种排行榜和模型卡,这无疑在鼓励开发者构建一个「敢于猜测」而非「懂得退缩」的模型。
所以,即便模型越来越先进,它们依然会产生幻觉。原因之一就是,它们倾向于自信地给出错误答案,而不是承认自己的不确定。
更好的评估方法
针对这个问题,OpenAI 指出了一个简单的解决办法:对「自信的错误」施加比「不确定性」更大的惩罚,同时对恰当表达不确定性的行为给予部分加分。
这个思路并不新鲜。一些标准化考试早已通过「答错倒扣分」或「留空给部分分」来阻止盲猜。一些研究团队也探索过考虑不确定性感知的评估方法。
但 OpenAI 强调,仅仅增加几个新的、能感知不确定性的测试是不够的。那些被广泛使用、且仅基于准确度的评估方法,必须从根本上更新,让评分体系能真正制止猜测行为。
只要主要评估指标还在奖励模型运气好的猜测,模型就会继续学习猜测。修改评估指标,可以扩大各类降幻觉技术的应用范围,无论是新开发的,还是先前研究过的。
幻觉是如何从预测下一个词中产生的
前面已经讨论了为什么幻觉如此顽固,但这些高度具体的事实性错误,究竟是从哪冒出来的?
毕竟,大型预训练模型在其他类型的错误上,比如拼写错误或括号匹配上,其实很少犯错。
OpenAI 表示,关键区别就在于数据中是否存在相应的模式。
语言模型首先通过预训练来学习,这个过程就是预测海量文本中的下一个词。
与传统的机器学习问题不同,每个语句并没有「真/假」标签。模型只看到流畅语言的正面示例,并必须去近似整个文本分布。当没有任何被标注为「无效」的示例时,区分有效和无效的语句就变得异常困难。但即便有了标签,某些错误仍然是无法避免的。
为了理解原因,可以想象一个更简单的类比:在图像识别中,如果有数百万张猫狗照片被标记为「猫」或「狗」,算法可以学会可靠地区分它们。但如果,是用每张宠物的生日来标记照片呢?由于生日本质上是随机的,无论算法多么先进,这个任务注定会产生错误。
同样的原则也适用于预训练。拼写和括号遵循一致的模式,因此这些错误会随着模型规模的扩大而消失。但像「宠物的生日」这类随机的、低频的事实,无法仅凭模式来预测,因此就会导致幻觉。
OpenAI 的分析,解释了哪些类型的幻觉是由「预测下一个词」的任务产生的。理想情况下,预训练后的后续阶段应该能消除这些幻觉,但正如上一节分析的原因,这并没有完全实现。
总结
OpenAI 表示:「我们希望本文中的统计学视角,能阐明幻觉的本质,并驳斥一些常见的误解。」
- 外界常说:「只要准确度达到100%,幻觉就会消失,因为一个完全准确的模型永远不会产生幻觉。」
事实是:准确度永远达不到100%,因为无论模型规模多大、搜索和推理能力多强,现实世界中总有些问题本质上就是无法回答的。 - 外界常说:「幻觉是不可避免的。」
事实是:幻觉并非不可避免,因为模型在不确定时可以选择放弃回答。 - 外界常说:「避免幻觉需要很强的智能,只有大模型才能做到。」
事实是:小模型反而更容易了解自身的局限。比如,被问及毛利语问题时,一个不懂毛利语的小模型可以直接回答「我不知道」,而一个懂点毛利语的模型还得先判断自己的置信度。正如论文中所说,「校准」所需的计算量,远小于保持准确。 - 外界常说:「幻觉是现代语言模型一个神秘莫测的缺陷。」
事实是:我们可以从统计学机制上理解幻觉是如何产生,以及在评估中是如何被「奖励」出来的。 - 外界常说:「要测量幻觉,我们只需要一个好的幻觉评估方法。」
事实是:学界已经提出了一些幻觉评估方法。但一个好的幻觉评估,与数以百计的传统、基于准确度的评估相比,几乎毫无招架之力,因为后者本质上是在惩罚谦逊、奖励猜测。所以,我们必须重新设计所有主要的评估指标,让它们能奖励模型对不确定性的表达。
OpenAI 总结道:「我们最新的模型,幻觉率已经更低。我们会继续努力,进一步降低语言模型输出中的自信错误率。」
顺带一提,据 TechCrunch 报道,OpenAI 正在重组其「模型行为」团队。这是一支规模虽小但颇具影响力的研究团队,负责决定 AI 模型如何与人类互动。现在,该团队将直接向 OpenAI 的后期训练主管 Max Schwarzer 汇报。而团队的原创始负责人 Joanne Jang,则将在公司内部启动一个名为「oai Labs」的新项目。按她的介绍,这是一个以研究为导向的团队,专注于发明和设计人与 AI 协作的新界面原型。





