新加坡国立大学AI突破：精准图像描述技术终结机器幻觉

2026-05-12阅读 0热度 0

新加坡

人工智能的“幻觉”问题，特别是视觉语言模型在图像描述任务中凭空捏造内容的现象，是制约其可靠应用的核心挑战。2026年2月，一项由新加坡国立大学与北京大学深圳研究生院联合发布的研究（论文arXiv:2602.22144v1），提出了一个颠覆性的诊断与解决方案。

人类解读图像是直觉性的，但对于大型视觉语言模型而言，准确描述图片内容却充满风险：模型常常会自信地生成图像中根本不存在的细节。这类似于一个过度解读的观察者，将模糊的云层形状误认为具体的物体。

问题的根源：是“眼睛”不行，还是“嘴巴”太能说？

研究团队通过严谨的实验设计，揭示了一个关键发现：幻觉的主要成因并非视觉编码器的识别能力不足，而是语言生成模块的“先验偏好”过强。模型倾向于依赖其庞大的内部语言知识库来“预测”内容，而非严格遵循视觉输入的证据。这好比一个经验丰富的分析师，在面对新数据时，不自觉地套用旧有模式。

决定性的证据在于：当模型产生幻觉描述时，无论是否提供图像输入，其生成的文本在语义上高度相似。这直接表明，问题出在生成端对语言模式的过度依赖，而非前端的视觉理解缺陷。

解决方案：NoLan框架，一个即插即用的“现实检查器”

基于这一洞见，团队提出了NoLan解码框架。其核心机制精妙而直接：在模型生成回答时，并行计算两个条件概率——基于图像的描述概率与不基于图像的“盲猜”概率。通过对比这两者的分布差异，NoLan能实时判断模型是否在脱离视觉证据进行“空想”。当两个分布过于接近时，框架便介入抑制语言先验，强制模型更多地锚定于视觉特征。

该方案最具吸引力的优势在于其“零训练”特性。它无需对现有模型进行任何参数更新或微调，即可作为一个即插即用的解码模块，无缝集成到各类视觉语言模型中，实现性能的即时提升。

两个版本：从基础到智能动态调节

团队开发了NoLan的两个实现变体。NoLan-Base采用固定的抑制强度，部署简单。而更先进的NoLan-Plus则引入了基于KL散度的动态调节机制，能够根据“有图”与“无图”回答的差异程度，智能地调整抑制力度，实现了更精细的控制。

效果验证：准确率显著提升，且不牺牲表达力

研究在POPE、MME、LLaVA-Bench等多个权威基准上对NoLan进行了全面评估，任务覆盖从封闭式判断到开放式问答。

结果证实了其有效性。在POPE基准上，NoLan将LLaVA-1.5 7B模型的准确率提升了6.45个百分点，在Qwen-VL 7B模型上提升了7.21个百分点。在更具挑战性的设置下，NoLan-Plus实现了超过8个百分点的准确率与F1分数提升，显著降低了模型的虚构频率。

更重要的是，NoLan在提升事实准确性的同时，并未损害生成文本的流畅性与丰富性。模型在开放式任务中依然能提供详实的描述，但内容与图像的匹配度更高。

深入洞察与广泛适用性

研究还揭示了幻觉的动态特性：在生成长序列文本的后半段，模型更容易“走神”并偏离视觉锚点，这为后续研究提供了新方向。

在效率方面，NoLan的计算与内存开销极低，远低于需要额外训练或复杂模块的方法，具备优秀的部署可行性。

NoLan的通用性也得到了验证。无论是处理自然图像、图表、图形还是地图，它都能稳定提升模型输出的可靠性。即使在需要多步推理的数学视觉任务上，NoLan同样有效，提升了模型解决代数与几何问题的能力。

与基于注意力调整等传统方法相比，NoLan的对比解码策略更为直接高效。即使在Qwen2-VL等新一代模型上，它依然能带来显著改进，证明了其方法的前沿性与持久性。

意义与展望

这项研究的价值具有广泛的实践意义。在自动驾驶决策、医疗影像报告生成、工业质检等对可靠性要求严苛的领域，一个能忠实于视觉证据的AI系统至关重要。NoLan提供了一种轻量级、低成本的部署方案，能快速提升现有系统的可信度。

对终端用户而言，未来的AI助手在解读图像时将提供更少臆测、更多基于事实的回答。对于开发者和研究者，NoLan则提供了一个开箱即用的工具，无需改造模型架构即可获得立竿见影的性能增益。

随着论文与代码的开源，NoLan技术有望被快速集成与应用，推动整个视觉语言模型领域向更高可靠性与实用性的方向演进。

Q&A

Q1：NoLan是什么技术？
A：NoLan是一种针对视觉语言模型幻觉问题的解码框架。它通过对比模型在有视觉输入和无视觉输入条件下的响应差异，动态抑制其对内部语言知识的过度依赖，从而生成更贴合图像真实内容的描述。

Q2：NoLan技术需要重新训练AI模型吗？
A：不需要。NoLan采用“零训练”部署模式，作为一个独立的解码策略，可直接应用于已训练好的模型，无需任何额外的参数优化或微调步骤，大幅降低了应用成本与复杂度。

Q3：NoLan技术的效果如何？
A：经多项基准测试验证，效果显著。它能将主流视觉语言模型的描述准确率提升6至8个百分点以上。具体表现为，模型能有效避免生成图中不存在的物体描述，输出的事实准确性获得实质性增强。