谷歌AI概览准确率90%？权威评测揭露虚假信息风险

2026-06-03阅读 0热度 0

其他

《纽约时报》最新调查将谷歌AI概览（AI Overviews）的可靠性推向风口浪尖。报道指出，该功能准确率约90%。乍看尚可，但谷歌搜索年处理超5万亿次查询。按此体量，即便只10%误差，每小时可能涌现超5700万条错误结果，每分钟近100万条。这个量级足以让任何关注信息质量的用户捏一把汗。

那么90%准确率究竟如何得出？这要归功于初创公司Oumi。他们采用SimpleQA基准测试，分析4326次谷歌搜索结果。数据显示，去年10月Gemini 2模型准确率约85%；今年2月迭代后的Gemini 3提升至91%。表面看稳步迭代。

但深层问题不容忽视。首先，Oumi的评估方法主要依赖AI工具，可能引入数据偏差。其次，谷歌AI概览对同一查询可能生成不同摘要。这种不确定性，让“准确率”单一数字的参考价值大打折扣。

更值得警惕的是另一个趋势。分析显示，AI生成概览内容与所引用原始信息来源不一致的比例显著上升——从Gemini 2时期的37%飙升至Gemini 3的56%。

这造成什么后果？用户常陷入两难：要么AI概览自说自话，点开下方链接发现内容完全对不上；要么概览结论正确，但引用的支持链接本身信息有误。好比学生考试蒙对答案，解题过程却套用了错误公式，可信度自然存疑。

这种机制漏洞甚至引来了恶意测试。有记者专门发布一篇含虚假信息的博客，第二天谷歌AI概览便引用了该博客内容。这清楚表明，当前系统在抗操纵与信源真伪辨别方面，存在明显短板。

实际搜索中令人困惑的例子屡见不鲜。用户斯蒂芬·潘瓦西搜索摔跤手胡克·霍根是否去世，AI概览明确告知：“无可信报告显示霍根已去世”。然而就在这则 reassuring的摘要下方，赫然列着一篇标题为“霍根之死谜团加深”的文章链接。

页面内这种“自打嘴巴”现象让用户该相信哪一方？它直接动摇用户对AI生成内容的根本信任。当工具自身都无法保证内部信息一致性时，用户付出的甄别成本反而可能更高。

核心问题梳理：

• 规模性风险：90%准确率在万亿级查询量下，意味着海量潜在错误信息。

• 进步与隐患并存：模型准确率在提升，但其产出与信源不符比例不降反升，已超50%。

• 脆弱性凸显：系统易受虚假信息干扰，且内容自相矛盾，持续消耗用户信任。

面对外界质疑，谷歌的回应指向评估方法本身。其发言人对Oumi的测试提出异议，认为这种评估未能真实反映用户日常搜索行为。这场关于“如何正确衡量AI搜索质量”的辩论，恐怕才刚刚拉开序幕。

相关阅读