谷歌AI概览准确率90%?权威评测揭露虚假信息风险
《纽约时报》最新调查将谷歌AI概览(AI Overviews)的可靠性推向风口浪尖。报道指出,该功能准确率约90%。乍看尚可,但谷歌搜索年处理超5万亿次查询。按此体量,即便只10%误差,每小时可能涌现超5700万条错误结果,每分钟近100万条。这个量级足以让任何关注信息质量的用户捏一把汗。
那么90%准确率究竟如何得出?这要归功于初创公司Oumi。他们采用SimpleQA基准测试,分析4326次谷歌搜索结果。数据显示,去年10月Gemini 2模型准确率约85%;今年2月迭代后的Gemini 3提升至91%。表面看稳步迭代。
但深层问题不容忽视。首先,Oumi的评估方法主要依赖AI工具,可能引入数据偏差。其次,谷歌AI概览对同一查询可能生成不同摘要。这种不确定性,让“准确率”单一数字的参考价值大打折扣。
准确率攀升,但“信源不符”风险加剧
更值得警惕的是另一个趋势。分析显示,AI生成概览内容与所引用原始信息来源不一致的比例显著上升——从Gemini 2时期的37%飙升至Gemini 3的56%。
这造成什么后果?用户常陷入两难:要么AI概览自说自话,点开下方链接发现内容完全对不上;要么概览结论正确,但引用的支持链接本身信息有误。好比学生考试蒙对答案,解题过程却套用了错误公式,可信度自然存疑。
这种机制漏洞甚至引来了恶意测试。有记者专门发布一篇含虚假信息的博客,第二天谷歌AI概览便引用了该博客内容。这清楚表明,当前系统在抗操纵与信源真伪辨别方面,存在明显短板。
自相矛盾的信息,持续损耗用户信任
实际搜索中令人困惑的例子屡见不鲜。用户斯蒂芬·潘瓦西搜索摔跤手胡克·霍根是否去世,AI概览明确告知:“无可信报告显示霍根已去世”。然而就在这则 reassuring的摘要下方,赫然列着一篇标题为“霍根之死谜团加深”的文章链接。
页面内这种“自打嘴巴”现象让用户该相信哪一方?它直接动摇用户对AI生成内容的根本信任。当工具自身都无法保证内部信息一致性时,用户付出的甄别成本反而可能更高。
核心问题梳理:
• 规模性风险:90%准确率在万亿级查询量下,意味着海量潜在错误信息。
• 进步与隐患并存:模型准确率在提升,但其产出与信源不符比例不降反升,已超50%。
• 脆弱性凸显:系统易受虚假信息干扰,且内容自相矛盾,持续消耗用户信任。
面对外界质疑,谷歌的回应指向评估方法本身。其发言人对Oumi的测试提出异议,认为这种评估未能真实反映用户日常搜索行为。这场关于“如何正确衡量AI搜索质量”的辩论,恐怕才刚刚拉开序幕。