大模型谎言检测指南:三步识破AI幻觉

2026-06-18阅读 0热度 0
大模型
当AI用无比流畅、自信十足的语句,说出一个完全错误的事实,我们该怎么分辨?是它“知道但不自信”,还是“根本就没搞懂自己在说什么”?这个问题,如今有了一个漂亮的新解法。 2024年6月,牛津大学团队在《自然》杂志上发表了一篇里程碑式的研究,标题就很有意思——《使用语义熵检测大语言模型中的幻觉》。共同第一作者包括Sebastian Farquhar、Jannik Kossen和Lorenz Kuhn,资深作者是Yarin Gal教授。这项研究的关键,不在于模型说了什么,而在于它“怎么说”。

一、什么是语义熵?

语义熵的核心思想相当巧妙:与其死盯着模型输出的文本,不如去测量它回答问题时的那份“底气”。 传统方法检测幻觉,靠的是“熵”。原理很简单:如果同一个问题,模型生成多个答案,每个答案用的词句都五花八门、差别巨大(也就是高熵),那就说明它心里没底。但这个办法有个致命短板——如果模型用了不同的句子,说的却是同一个意思呢?比如“巴黎是法国首都”、“法国的首都是巴黎”和“Paris is the capital of France”。传统熵会被这些不同的词句迷惑,错误地判定为“不确定”。 语义熵正是为解决这个问题而来。它不再比较词句,而是直接比较语义。具体来说,就是把所有意思相同的回答归入同一个“语义簇”,然后再计算模型生成不同“语义簇”的概率分布。 研究团队开发了一套基于统计学的方法:将大语言模型产生的词元级概率,转化为“语义概率”——也就是在意义空间中的概率。而转化过程中用到的“翻译官”,恰恰就是大语言模型自己。 原理直白:如果模型对同一个问题反复生成语义上完全不同的答案(高语义熵),那它大概率在胡编,也就是“心里没底”;反过来,如果每次生成的答案语义高度一致(低语义熵),说明它对这部分知识“胸有成竹”。 研究团队把这类问题专门定义为“confabulations”——模型每次被问到同一问题时,给出不同答案的任意且错误的生成。

二、语义熵能做什么?

牛津团队的研究表明,语义熵可以准确预测模型的“胡编乱造”,然后通过直接拒绝回答那些它没把握的问题,大幅提升整体问答的准确率。 这套方法有几个极其突出的优势: - **无需任务特定数据**:不像传统那些方法,每换一个任务就要重新训练或调整模型。 - **鲁棒地泛化到未见过的任务**:在之前从未见过的全新任务上,同样有效。 - **适用于多种数据类型**:从Google搜索问答、技术生物医学问题,到数学文字题,通吃。 团队在包括GPT-4和LLaMA 2在内的六个开源大模型上进行了测试。结果没有悬念:在所有测试集上,语义熵的表现都显著优于之前的所有方法。 更厉害的是,它还能做到“句级”精准定位。研究团队展示了如何用语义熵识别ChatGPT生成的短篇传记中,那些可能不正确的具体陈述——把长答案拆成一个个小事实,然后逐个评估其语义不确定性。 医疗领域的探索已经跟上来了。2025年的一项研究,使用英国皇家妇产科学院MRCOG考试的数据集,验证了语义熵在妇产科AI生成内容中检测幻觉的能力。另一项研究则提出了Vision-Amplified Semantic Entropy(VASE),通过引入弱图像变换来增强视觉输入的影响,改善医学视觉问答中的幻觉检测。 Yarin Gal教授的评价一针见血:“从大模型获取答案很便宜,但可靠性才是最大的瓶颈。在那些可靠性至关重要的场景里,计算语义不确定性,是值得付出的代价。”

三、后续发展与局限

自2024年发表以来,这条技术路线一直在快速演进。 2025年,研究者提出了将语义熵与成对语义相似性结合的方法,增强了传统熵估计。另一项研究则提出了基于热力学的语义熵产生(SEP)指标,发现高忠实度通常意味着低熵产生。 2026年,进展更让人眼前一亮。有团队提出了自适应贝叶斯估计框架,通过引导语义探索来高效估计语义熵,解决了固定采样预算无法适应查询复杂度的问题——这项成果已经被AAAI 2026接收为口头报告,录取率不到5%。 还有一项名为BEACON(Beha vioral Entropy Aggregation for Cross-model hallucination detectiON)的研究,这是一个完全黑盒的幻觉检测框架,仅仅基于模型输出就能操作,不需要访问模型内部的任何参数或外部知识库。 使用语义熵作为幻觉评估指标,基本消除了由异质表达引起的分数差异,把检测精度提升到了接近人工标注的水平。 当然,任何方法都有边界。在医学视觉语言模型中,语义熵因为模型对强语言先验的过度自信,表现并不总是可靠。另外,它的计算需要多次采样,成本可能是直接使用生成模型的数倍——但在那些“一步错可能步步错”的高风险场景里,这笔账算下来还是划算的。

四、结语

语义熵最大的实用价值,在于它把AI的“不确定性”变成了一个可测量、可计算、可干预的指标。 在医疗问答、法律咨询、金融分析这类高风险场景里,知道AI“不知道什么”,有时候比知道AI“知道什么”更为关键。正如Farquhar博士所说:“我们的方法本质上是在意义空间中估计概率,即‘语义概率’。吸引人之处在于,它利用大语言模型自己完成这种转换。” *参考文献:Farquhar, S., Kossen, J., Kuhn, L. & Gal, Y. (2024). Detecting hallucinations in large language models using semantic entropy. Nature, 630(8017), 625-630。*
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策