2025最新谷歌AI摘要拼写错误频现:大模型固有缺陷深度解析
分享一个今天刚发生的真实案例。
5月28日,有人拿“Google”这个词去测试谷歌自家的人工智能:这个词里包含几个字母p?结果谷歌AI给出的回答是——两个。
更离谱的是,这绝非个例。紧接着,AI摘要(AI Overview)声称“poop”这个词里有一个字母r——明显出错。此外,“journalism”被它拼写成“j-o-u-r-n-a-d-i-s-m”,凭空多出一个d。至于美国总统的姓氏?AI倒是推断出里面有一个字母p,但拼出来的结果却是“t-r-p-u-m”。
说实话,谷歌这次高调推进搜索改版,把AI摘要推向前台,出现这类翻车并不意外。此前已有大量类似案例:AI摘要引用恶搞帖,教用户“吃石头”“往披萨上涂胶水”,令人哭笑不得。
谷歌发给TechCrunch的邮件声明态度坦诚:“大语言模型在单词字母计数方面一直存在短板,我们正在着手解决这个具体问题。”
这类低级别拼写错误,业内早已习以为常。驱动聊天机器人和各类文本生成工具的大语言模型,其设计初衷就不是为了识别拼写。多年来,科技圈流传一个梗:任何公司发布新AI模型后,第一件事就是用“strawberry”这个单词去考它,问问里面到底有几个字母r。结果呢?这些模型能几秒内写出一套应用程序,能解开困扰数学家数十年的难题,但在拼写这件事上,和学龄前儿童水平相当。
不过,谷歌AI摘要暴露的问题远不止这些拼写笑话。上周还出现了一个更严重的漏洞:用户搜索“disregard”(忽视),页面本该展示词典释义,AI却直接回复“收到。你随时可以提出新指令或问题。”谷歌事后修复了这个漏洞,但层出不穷的拼写错误依然天天刷屏,成为用户喜闻乐见的吐槽素材——因为从根源上讲,这类问题几乎无法彻底解决。
研究人员对此早有解释。人工智能并不像人类那样,把文字识别为由字母和单词组成的单元。绝大多数大语言模型基于Transformer架构,处理文本时先把文字拆分成“词元”(token)。不同模型切分词元的粒度不同,可能是完整单词、音节,甚至单个字母。AI不是靠“读”来理解文本的,它先把文本转换成数字表征,再根据上下文分析,最后生成看似符合逻辑的回复。
阿尔伯塔大学人工智能研究员、助理教授马修・古兹迪亚尔接受TechCrunch采访时直言:“大语言模型依赖Transformer架构运行,本质上不是在阅读文本。你输入指令后,内容先被转成编码。比如它认出了单词‘the’,只会对应一个专属编码,却完全无法区分组成这个词的字母T、H、E。”
说到底,谷歌AI摘要这类大语言模型依赖的“词元”架构,本身就带有先天局限。研究人员普遍不看好它能彻底摆平拼写问题。
波士顿东北大学专攻大语言模型可解释性的在读博士谢里丹・福伊希特表示:“对语言模型来说,如何准确定义‘单词’本身就是个难题。即便行业专家能设计出一套完美的词元词汇表,模型大概率还是会继续合并或拆分文本片段。依我看,受这种模糊性影响,不存在绝对完美的词元分词器。”
对研究人员而言,拼写问题其实优先级不高——大语言模型的核心价值原本就不在拼写。但这些一眼就能看穿的失误,倒是给了我们一个很好的提醒:就算AI有时候看起来无所不知、深不可测,它也远远谈不上完美无缺。面对它给出的结果,别急着崇拜,更别盲目信从——核实,永远是第一道防线。
