OpenAI论文首次锁定AI幻觉的真正元凶

2026-06-22阅读 0热度 0
ai

AI 最令人头疼的问题是什么?不是代码崩溃,而是「幻觉」——模型会一本正经地编造事实,让你真假难辨。这一根本性的挑战,正是阻碍我们完全信任 AI 的核心障碍。

大模型会产生幻觉,这几乎已成常识,也让每个严肃使用它的人不得不谨慎行事。OpenAI 自己也坦言:「ChatGPT 也会产生幻觉。虽然 GPT-5 在执行推理时幻觉明显减少,但问题依旧存在。幻觉仍然是所有大型语言模型面临的根本挑战。」

尽管学术界提出了各种降低幻觉的方法,但至今仍未找到彻底「根治」的良方。

那么,大模型的幻觉究竟从何而来?今天,OpenAI 罕见地发表了一篇论文,系统性地揭示了问题根源。

首先,得定义什么是幻觉。OpenAI 给出的定义很直白:「模型自信地生成不真实答案的情况。」

至于原因,说来也简单:标准的训练和评估程序,更倾向于奖励模型的「猜测」,而不是奖励它勇于承认自己「不确定」。

论文标题:Why Language Models Hallucinate

论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

下面就来具体看看,OpenAI 究竟发现了什么。

什么是幻觉?

幻觉就是语言模型生成的,看似合理但实则错误的陈述。

即使是看似简单的问题,它们也可能以出人意料的方式出错。OpenAI 举了个例子:当向不同的聊天机器人询问论文一作 Adam Tauman Kalai 的博士论文标题时,它们自信地给出了三个不同的答案,但没一个是正确的。

当询问他的生日时,模型又给出了三个不同的日期,同样全错。

为了测试而学习

OpenAI 表示,幻觉之所以持续存在,部分原因是当前的评估方法设置了一套错误的激励机制。虽然评估本身不会直接产生幻觉,但大多数衡量模型性能的方式,都在鼓励模型去「猜」,而不是诚实地面对不确定性。

你可以把它想象成一场选择题考试。如果你不知道答案,随便蒙一个,还有机会蒙对;但要是留空不答,那就铁定零分。同样,当模型仅仅根据准确度(也就是答对问题的百分比)来评分时,它自然会被鼓励去猜测,而不是承认「我不知道」。

再举个例子:假设一个模型被问及某人的生日,但模型不知道。如果它猜「9月10日」,那它还有1/365的概率猜对;但如果说「我不知道」,则必定得零分。在数千道测试题中,那个敢猜的模型,最终在记分牌上的表现,肯定比那个谨慎但承认不确定的模型要好。

对于只有一个「正确答案」的问题,我们可以考虑三类答案:准确的答案、错误的答案,以及模型不愿冒险猜测而「弃权」的答案。

OpenAI 指出,弃权是一种「谦逊」的体现,而谦逊正是 OpenAI 的核心价值观之一。

大多数评分指标会根据准确度对模型进行排序,但错误答案其实比弃权答案更糟糕。OpenAI 的模型规范就明确指出:指出不确定性或要求澄清,远比自信地提供可能错误的信息要好。

以 GPT5 系统卡中的 SimpleQA 评估为例,就更清楚了。

在准确度方面,更早期的 o4-mini 模型表现略好。但它的错误率,也就是幻觉率,却明显更高。在不确定时进行策略性猜测,能提高准确度,但代价是错误和幻觉的增加。

在对数十次评估结果进行平均时,大多数基准测试都只盯着准确度指标,这就造成了「对」与「错」的二分法,忽视了「不确定」这个关键选项。

在像 SimpleQA 这类相对简单的评估中,一些模型的准确度接近 100%,幻觉问题似乎被消除了。然而,在更具挑战性的评估和实际应用中,准确度永远达不到 100%,因为有些问题本身就是无法回答的——信息不可用、模型能力受限、或者问题本身存在歧义。

尽管如此,那些仅以准确度为衡量标准的评估指标,依然霸占着各种排行榜和模型卡,这无疑在鼓励开发者构建一个「敢于猜测」而非「懂得退缩」的模型。

所以,即便模型越来越先进,它们依然会产生幻觉。原因之一就是,它们倾向于自信地给出错误答案,而不是承认自己的不确定。

更好的评估方法

针对这个问题,OpenAI 指出了一个简单的解决办法:对「自信的错误」施加比「不确定性」更大的惩罚,同时对恰当表达不确定性的行为给予部分加分。

这个思路并不新鲜。一些标准化考试早已通过「答错倒扣分」或「留空给部分分」来阻止盲猜。一些研究团队也探索过考虑不确定性感知的评估方法。

但 OpenAI 强调,仅仅增加几个新的、能感知不确定性的测试是不够的。那些被广泛使用、且仅基于准确度的评估方法,必须从根本上更新,让评分体系能真正制止猜测行为。

只要主要评估指标还在奖励模型运气好的猜测,模型就会继续学习猜测。修改评估指标,可以扩大各类降幻觉技术的应用范围,无论是新开发的,还是先前研究过的。

幻觉是如何从预测下一个词中产生的

前面已经讨论了为什么幻觉如此顽固,但这些高度具体的事实性错误,究竟是从哪冒出来的?

毕竟,大型预训练模型在其他类型的错误上,比如拼写错误或括号匹配上,其实很少犯错。

OpenAI 表示,关键区别就在于数据中是否存在相应的模式。

语言模型首先通过预训练来学习,这个过程就是预测海量文本中的下一个词。

与传统的机器学习问题不同,每个语句并没有「真/假」标签。模型只看到流畅语言的正面示例,并必须去近似整个文本分布。当没有任何被标注为「无效」的示例时,区分有效和无效的语句就变得异常困难。但即便有了标签,某些错误仍然是无法避免的。

为了理解原因,可以想象一个更简单的类比:在图像识别中,如果有数百万张猫狗照片被标记为「猫」或「狗」,算法可以学会可靠地区分它们。但如果,是用每张宠物的生日来标记照片呢?由于生日本质上是随机的,无论算法多么先进,这个任务注定会产生错误。

同样的原则也适用于预训练。拼写和括号遵循一致的模式,因此这些错误会随着模型规模的扩大而消失。但像「宠物的生日」这类随机的、低频的事实,无法仅凭模式来预测,因此就会导致幻觉。

OpenAI 的分析,解释了哪些类型的幻觉是由「预测下一个词」的任务产生的。理想情况下,预训练后的后续阶段应该能消除这些幻觉,但正如上一节分析的原因,这并没有完全实现。

总结

OpenAI 表示:「我们希望本文中的统计学视角,能阐明幻觉的本质,并驳斥一些常见的误解。」

  • 外界常说:「只要准确度达到100%,幻觉就会消失,因为一个完全准确的模型永远不会产生幻觉。」
    事实是:准确度永远达不到100%,因为无论模型规模多大、搜索和推理能力多强,现实世界中总有些问题本质上就是无法回答的。
  • 外界常说:「幻觉是不可避免的。」
    事实是:幻觉并非不可避免,因为模型在不确定时可以选择放弃回答。
  • 外界常说:「避免幻觉需要很强的智能,只有大模型才能做到。」
    事实是:小模型反而更容易了解自身的局限。比如,被问及毛利语问题时,一个不懂毛利语的小模型可以直接回答「我不知道」,而一个懂点毛利语的模型还得先判断自己的置信度。正如论文中所说,「校准」所需的计算量,远小于保持准确。
  • 外界常说:「幻觉是现代语言模型一个神秘莫测的缺陷。」
    事实是:我们可以从统计学机制上理解幻觉是如何产生,以及在评估中是如何被「奖励」出来的。
  • 外界常说:「要测量幻觉,我们只需要一个好的幻觉评估方法。」
    事实是:学界已经提出了一些幻觉评估方法。但一个好的幻觉评估,与数以百计的传统、基于准确度的评估相比,几乎毫无招架之力,因为后者本质上是在惩罚谦逊、奖励猜测。所以,我们必须重新设计所有主要的评估指标,让它们能奖励模型对不确定性的表达。

OpenAI 总结道:「我们最新的模型,幻觉率已经更低。我们会继续努力,进一步降低语言模型输出中的自信错误率。」

顺带一提,据 TechCrunch 报道,OpenAI 正在重组其「模型行为」团队。这是一支规模虽小但颇具影响力的研究团队,负责决定 AI 模型如何与人类互动。现在,该团队将直接向 OpenAI 的后期训练主管 Max Schwarzer 汇报。而团队的原创始负责人 Joanne Jang,则将在公司内部启动一个名为「oai Labs」的新项目。按她的介绍,这是一个以研究为导向的团队,专注于发明和设计人与 AI 协作的新界面原型。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策