OpenAI论文首次锁定AI幻觉的真正元凶

2026-06-22阅读 0热度 0

AI 最令人头疼的问题是什么？不是代码崩溃，而是「幻觉」——模型会一本正经地编造事实，让你真假难辨。这一根本性的挑战，正是阻碍我们完全信任 AI 的核心障碍。

大模型会产生幻觉，这几乎已成常识，也让每个严肃使用它的人不得不谨慎行事。OpenAI 自己也坦言：「ChatGPT 也会产生幻觉。虽然 GPT-5 在执行推理时幻觉明显减少，但问题依旧存在。幻觉仍然是所有大型语言模型面临的根本挑战。」

尽管学术界提出了各种降低幻觉的方法，但至今仍未找到彻底「根治」的良方。

那么，大模型的幻觉究竟从何而来？今天，OpenAI 罕见地发表了一篇论文，系统性地揭示了问题根源。

首先，得定义什么是幻觉。OpenAI 给出的定义很直白：「模型自信地生成不真实答案的情况。」

至于原因，说来也简单：标准的训练和评估程序，更倾向于奖励模型的「猜测」，而不是奖励它勇于承认自己「不确定」。

论文标题：Why Language Models Hallucinate

论文地址：https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

下面就来具体看看，OpenAI 究竟发现了什么。

什么是幻觉？

幻觉就是语言模型生成的，看似合理但实则错误的陈述。

即使是看似简单的问题，它们也可能以出人意料的方式出错。OpenAI 举了个例子：当向不同的聊天机器人询问论文一作 Adam Tauman Kalai 的博士论文标题时，它们自信地给出了三个不同的答案，但没一个是正确的。

当询问他的生日时，模型又给出了三个不同的日期，同样全错。

为了测试而学习

OpenAI 表示，幻觉之所以持续存在，部分原因是当前的评估方法设置了一套错误的激励机制。虽然评估本身不会直接产生幻觉，但大多数衡量模型性能的方式，都在鼓励模型去「猜」，而不是诚实地面对不确定性。

你可以把它想象成一场选择题考试。如果你不知道答案，随便蒙一个，还有机会蒙对；但要是留空不答，那就铁定零分。同样，当模型仅仅根据准确度（也就是答对问题的百分比）来评分时，它自然会被鼓励去猜测，而不是承认「我不知道」。

再举个例子：假设一个模型被问及某人的生日，但模型不知道。如果它猜「9月10日」，那它还有1/365的概率猜对；但如果说「我不知道」，则必定得零分。在数千道测试题中，那个敢猜的模型，最终在记分牌上的表现，肯定比那个谨慎但承认不确定的模型要好。

对于只有一个「正确答案」的问题，我们可以考虑三类答案：准确的答案、错误的答案，以及模型不愿冒险猜测而「弃权」的答案。

OpenAI 指出，弃权是一种「谦逊」的体现，而谦逊正是 OpenAI 的核心价值观之一。

大多数评分指标会根据准确度对模型进行排序，但错误答案其实比弃权答案更糟糕。OpenAI 的模型规范就明确指出：指出不确定性或要求澄清，远比自信地提供可能错误的信息要好。

以 GPT5 系统卡中的 SimpleQA 评估为例，就更清楚了。

在准确度方面，更早期的 o4-mini 模型表现略好。但它的错误率，也就是幻觉率，却明显更高。在不确定时进行策略性猜测，能提高准确度，但代价是错误和幻觉的增加。

在对数十次评估结果进行平均时，大多数基准测试都只盯着准确度指标，这就造成了「对」与「错」的二分法，忽视了「不确定」这个关键选项。

在像 SimpleQA 这类相对简单的评估中，一些模型的准确度接近 100%，幻觉问题似乎被消除了。然而，在更具挑战性的评估和实际应用中，准确度永远达不到 100%，因为有些问题本身就是无法回答的——信息不可用、模型能力受限、或者问题本身存在歧义。

尽管如此，那些仅以准确度为衡量标准的评估指标，依然霸占着各种排行榜和模型卡，这无疑在鼓励开发者构建一个「敢于猜测」而非「懂得退缩」的模型。

所以，即便模型越来越先进，它们依然会产生幻觉。原因之一就是，它们倾向于自信地给出错误答案，而不是承认自己的不确定。

更好的评估方法

针对这个问题，OpenAI 指出了一个简单的解决办法：对「自信的错误」施加比「不确定性」更大的惩罚，同时对恰当表达不确定性的行为给予部分加分。

这个思路并不新鲜。一些标准化考试早已通过「答错倒扣分」或「留空给部分分」来阻止盲猜。一些研究团队也探索过考虑不确定性感知的评估方法。

但 OpenAI 强调，仅仅增加几个新的、能感知不确定性的测试是不够的。那些被广泛使用、且仅基于准确度的评估方法，必须从根本上更新，让评分体系能真正制止猜测行为。

只要主要评估指标还在奖励模型运气好的猜测，模型就会继续学习猜测。修改评估指标，可以扩大各类降幻觉技术的应用范围，无论是新开发的，还是先前研究过的。

幻觉是如何从预测下一个词中产生的

前面已经讨论了为什么幻觉如此顽固，但这些高度具体的事实性错误，究竟是从哪冒出来的？

毕竟，大型预训练模型在其他类型的错误上，比如拼写错误或括号匹配上，其实很少犯错。

OpenAI 表示，关键区别就在于数据中是否存在相应的模式。

语言模型首先通过预训练来学习，这个过程就是预测海量文本中的下一个词。

与传统的机器学习问题不同，每个语句并没有「真/假」标签。模型只看到流畅语言的正面示例，并必须去近似整个文本分布。当没有任何被标注为「无效」的示例时，区分有效和无效的语句就变得异常困难。但即便有了标签，某些错误仍然是无法避免的。

为了理解原因，可以想象一个更简单的类比：在图像识别中，如果有数百万张猫狗照片被标记为「猫」或「狗」，算法可以学会可靠地区分它们。但如果，是用每张宠物的生日来标记照片呢？由于生日本质上是随机的，无论算法多么先进，这个任务注定会产生错误。

同样的原则也适用于预训练。拼写和括号遵循一致的模式，因此这些错误会随着模型规模的扩大而消失。但像「宠物的生日」这类随机的、低频的事实，无法仅凭模式来预测，因此就会导致幻觉。

OpenAI 的分析，解释了哪些类型的幻觉是由「预测下一个词」的任务产生的。理想情况下，预训练后的后续阶段应该能消除这些幻觉，但正如上一节分析的原因，这并没有完全实现。

总结

OpenAI 表示：「我们希望本文中的统计学视角，能阐明幻觉的本质，并驳斥一些常见的误解。」

外界常说：「只要准确度达到100%，幻觉就会消失，因为一个完全准确的模型永远不会产生幻觉。」
事实是：准确度永远达不到100%，因为无论模型规模多大、搜索和推理能力多强，现实世界中总有些问题本质上就是无法回答的。
外界常说：「幻觉是不可避免的。」
事实是：幻觉并非不可避免，因为模型在不确定时可以选择放弃回答。
外界常说：「避免幻觉需要很强的智能，只有大模型才能做到。」
事实是：小模型反而更容易了解自身的局限。比如，被问及毛利语问题时，一个不懂毛利语的小模型可以直接回答「我不知道」，而一个懂点毛利语的模型还得先判断自己的置信度。正如论文中所说，「校准」所需的计算量，远小于保持准确。
外界常说：「幻觉是现代语言模型一个神秘莫测的缺陷。」
事实是：我们可以从统计学机制上理解幻觉是如何产生，以及在评估中是如何被「奖励」出来的。
外界常说：「要测量幻觉，我们只需要一个好的幻觉评估方法。」
事实是：学界已经提出了一些幻觉评估方法。但一个好的幻觉评估，与数以百计的传统、基于准确度的评估相比，几乎毫无招架之力，因为后者本质上是在惩罚谦逊、奖励猜测。所以，我们必须重新设计所有主要的评估指标，让它们能奖励模型对不确定性的表达。

OpenAI 总结道：「我们最新的模型，幻觉率已经更低。我们会继续努力，进一步降低语言模型输出中的自信错误率。」

顺带一提，据 TechCrunch 报道，OpenAI 正在重组其「模型行为」团队。这是一支规模虽小但颇具影响力的研究团队，负责决定 AI 模型如何与人类互动。现在，该团队将直接向 OpenAI 的后期训练主管 Max Schwarzer 汇报。而团队的原创始负责人 Joanne Jang，则将在公司内部启动一个名为「oai Labs」的新项目。按她的介绍，这是一个以研究为导向的团队，专注于发明和设计人与 AI 协作的新界面原型。

OpenAI论文首次锁定AI幻觉的真正元凶

什么是幻觉？

为了测试而学习

更好的评估方法

幻觉是如何从预测下一个词中产生的

总结

相关阅读

最新教程

最新资讯