AI乘法计算盲区揭秘:德克萨斯与新加坡国立大学研究深度解析

2026-05-15阅读 0热度 0
新加坡

德克萨斯大学奥斯汀分校与新加坡国立大学的一项联合研究,其预印本论文(arXiv:2604.18203v1)已于2026年4月20日发布,并计划于同年计算语言学顶级会议ACL Findings上发表。该研究为界定当前多模态大语言模型在基础算术任务上的能力边界,提供了关键性的实证数据。

当AI遇到乘法题,德克萨斯大学和新加坡国立大学的研究者发现了一个令人深思的计算盲区

一、多模态输入的算术陷阱

请尝试计算:47乘以36的结果是多少?

对人类而言,这是一道基础的两位数乘法。但如果我们改变题目的呈现方式:不是给出“47×36”这串数字,而是展示一张包含该算式的图片,或者用语音读出“四十七乘以三十六”。题目的本质难度改变了吗?

对人类来说,答案不变。然而,对于那些宣称能理解图像、音频和文本的多模态大语言模型,答案却变得不确定。研究者发现一个关键现象:同一道乘法题,当以纯数字文本输入时,模型可能正确作答;一旦将题目渲染为图像或转换为语音,其表现便出现显著波动。甚至,将数字表达式“47×36”改写为文字“四十七乘以三十六”,模型的准确率也可能发生变化。

这引出了一个核心问题:模型的失败,源于感知障碍,还是计算能力的根本缺陷?研究团队通过一系列精密实验,试图分离这两个因素。

二、量化计算难度:算术负担指数C

要系统分析失败原因,首先需要精确量化“一道乘法题有多难”。

直觉上,数字位数越多越难,但这并不精确。例如,1000×200就比89×67更简单,尽管前者位数更多。关键在于需要执行“有效计算”的非零数字位数——因为乘以零的步骤可以忽略。

为此,研究团队定义了“算术负担”指数C。其计算方式为:两个乘数的总位数,乘以这两个数中非零位数的总数。以47×36为例,总位数4,非零位数4,故C=16。而1000×200,总位数7,非零位数仅“1”和“2”,故C=14,难度更低。

这个指标如同评估一道工序:不仅要统计步骤总数,更要区分哪些是核心步骤。后续验证表明,C在预测模型计算准确率方面表现优异,其决定系数R²普遍高于0.5。与那些纳入进位传播、中间步骤数等复杂因素的指标相比,C的预测效能差距不大,是一个简洁而有力的度量工具。

三、实验设计:构建跨模态基准测试集

基于算术负担指数C,研究团队构建了一个包含一万道配对题目的基准测试集。每道题目均以四种模态呈现:纯数字文本、数字单词文本、文本渲染成的图像、以及音频。

题目设计具有系统性。研究者预设了多种数字模板来控制操作数结构,包括单个随机数、两位随机数(VV)、三位随机数(VVV)、带尾部零的数(V0, V00, VV0)以及非相邻非零位数(V0V)。这种设计能在不改变题目外在形式的前提下,系统性地调节算术复杂度和进位模式。

参与评估的模型阵容包括:谷歌Gemini 2.5 Flash、阿里云Qwen3-VL(30亿与2350亿参数版)、OpenAI GPT-4o与GPT-5.4,以及xAI Grok 4.20。针对需要深入分析模型内部机制(如访问词元损失)的实验,则重点使用了Qwen3-VL的两个版本。

四、核心发现:感知无误,计算失准

测试结果指向一个明确结论:在多模态大模型中,感知与计算是分离的,且计算是主要瓶颈。

研究设计了两种任务:一是“识别任务”,要求模型识别图片或音频中的数字;二是“计算任务”,要求将识别出的两个数字相乘。

如果模型在图片乘法题上出错,原因无非是感知失败或计算失败。实验数据显示,所有模型在所有模态下的数字识别准确率均超过99%。这意味着,模型能近乎完美地“读取”信息。然而,在随后的乘法计算环节,准确率随着算术负担C值的增加而急剧下降。当C超过100时,多数模型的正确率已接近零。

这一发现意义重大:多模态AI的乘法失败,根源不在于“看不清”或“听不清”,而在于其核心算术引擎的“算不准”。这消除了对多模态感知干扰的疑虑,但同时也揭示了其在需要可靠数值计算场景中的根本性限制。

五、模型横向对比:抗压能力分析

利用统一的难度标尺C,可以对不同模型的抗压能力进行横向比较。研究者为每个模型在不同输入形式下拟合了准确率预测曲线,并提取关键参数。

其中最直观的是“50%准确率门槛”,即C值达到多少时,模型预测准确率降至一半。门槛越高,表明模型处理复杂计算的能力越强。

Gemini 2.5 Flash、Qwen3-VL-30B和GPT-4o表现相近,其50%门槛约在C=50至54之间。Qwen3-VL-235B则显著更强,门槛在74到75之间,体现了参数规模的优势。GPT-5.4和Grok 4.20总体表现更佳,但对输入格式敏感——在纯数字文本或数字图片上表现良好,一旦面对字母拼写的图片,门槛便明显下降。

不同模态间的差异主要体现在起始准确率(截距)上,而非下降速率。图片和音频模态通常从一个更低的基准准确率开始,但随着C值增大,其准确率下降的斜率与文本模态基本一致。数字图片的表现与数字文本接近,而字母拼写图片是各模型的共同弱点。音频模态在此次评估中未表现出统一的惩罚效应。

一个值得注意的案例是谷歌Gemini 3.1 Pro。在C≤100的原始测试范围内,其表现近乎完美,但代价是推理速度极慢(每题超一小时,其他模型仅需数分钟)和超长的输出。当测试范围扩展至C=400时,其准确率转折点出现在C≈360附近,对应“一千六百多万乘以五十六亿”这类超大数字运算。

六、内部算法偏好:AI的“计算策略”

在明确错误点后,研究者深入探究:AI进行乘法运算时,内部倾向于采用何种计算策略?

人类会根据题目特点选择策略。例如,计算49×51可能用“取整补偿法”(RC),计算47×60可能用“分配分解法”(DD),而87×96则需标准的“列式乘法”(OT)。

团队设计了“偏好测试”:为每种策略编写一段简短提示,接在题目后,然后测量模型“延续”每种提示的意愿强度,技术上通过计算交叉熵损失值实现。损失值越低,表明该策略越符合模型的自然倾向。

结果高度一致:无论是30亿还是2350亿参数的模型,无论文字或图片输入,AI都对分配分解法(DD)表现出最强的偏好(损失值最低)。列式乘法(OT)始终是最不受欢迎的选项。通过替换测试模板措辞的对照实验确认,这种偏好源于内在的计算逻辑,而非简单的文本匹配。

七、干预策略的失败:LoRA适配器实验

既然AI有内在策略偏好,能否通过训练强制其使用特定策略以提升准确率?

研究团队尝试了轻量级训练方法——LoRA适配器。他们训练了三个“行为补丁”:分别鼓励使用RC、DD、OT策略,另有一个仅模仿推理格式的对照补丁。每个补丁使用约一千道精选例题训练。

结果出人意料且具有启发性。在测试中,三个策略补丁在432次比较中引发了114次答案正确性的“翻转”。然而,其中仅1次是从错误变为正确,其余113次均为从正确变为错误。在2350亿参数版本中,121次翻转里仅4次变好,117次变差。甚至仅模仿格式的对照补丁也主要导致准确率下降。

这表明,模型原生的、根据题目特征动态选择策略的“内部路由机制”,比任何人为强加的单一固定策略都更优化、更灵活。外部干预强行固化其计算路径,反而干扰并破坏了这种自适应的调度能力。错误分析显示,强制策略导致的最常见错误是“漏掉某个中间乘积项”。

八、策略的神经表征:参数空间中的几何关系

为从底层理解不同算法策略是否对应不同的神经计算机制,研究者进行了向量几何分析。

每个训练好的LoRA补丁对应一组参数更新向量。如果两种策略的补丁向量方向高度一致(余弦相似度接近1),说明它们调用相似的神经机制;若方向接近正交(相似度接近0),则意味着它们激活了不同的计算子空间。

结果显示,三种策略补丁的向量方向彼此几乎正交,余弦相似度均接近零。为排除随机性,研究者用不同随机种子重复训练相同策略补丁,发现“同策略不同训练”向量间的相似度,显著高于“不同策略”向量间的相似度。这证实了三种人类算法策略在AI的参数空间中,确实占据了各自独立的位置,有着不同的“神经实现”。

九、对抗性测试:策略偏好的鲁棒性

研究团队还设计了“对抗性陷阱”题目,测试AI的策略偏好在面对误导性线索时是否稳定。

例如,“反取整陷阱”题让操作数表面接近整十整百,诱使模型使用取整补偿法,但实际上该方法更繁琐。“缺项分解陷阱”则测试模型在使用分配分解法时是否会遗漏必要项。

实验表明,陷阱题能显著改变模型的策略偏好。面对反取整陷阱,30亿参数模型对RC策略的偏好分数从26.5%升至34.5%,恰好落入圈套。2350亿参数版本也有类似变化但幅度更小(12.4%升至15.6%),展现出更强的鲁棒性。这意味着,更大规模的模型不仅计算能力更强,其内部策略选择机制也更为稳定,不易被表面特征误导。

总结与启示

这项研究揭示了一个深刻现实:当前多模态大语言模型的“智能”存在特定且脆弱的边界。它们能近乎完美地跨模态感知数学符号,但核心瓶颈在于算术计算能力本身。随着算术负担C的增加,其准确率以可预测的方式衰减,且这种衰减趋势在不同模态下高度一致——多模态外壳共享着同一套计算核心的极限。

研究还表明,AI内部更偏爱分配分解法,这种偏好有其计算逻辑基础,并受题目格式和操作数结构影响。试图通过轻量级训练强行改变这种偏好,反而会扰乱其原本有效的内部路由机制。这对实际应用具有明确启示:在需要高可靠性算术的场景中,与其训练模型掌握特定“心算”算法,不如为其集成外部计算工具(如计算器API),将感知理解与数值计算任务解耦,可能是更务实、高效的工程路径。

对技术细节感兴趣的读者,可通过论文编号arXiv:2604.18203查阅完整原文与实验数据。

Q&A

Q1:算术负担指标C是怎么计算的?为什么用这个指标?

A:算术负担C的计算公式为:两个乘数的总位数 × 两数中非零位数的总数。例如47×36,总位数4,非零位数4,故C=16。采用此指标,是因为它能简洁反映乘法实际所需的计算量——零乘运算可跳过,非零位数才是核心。实证表明,C对AI计算准确率的预测能力很强(R²常>0.5),其预测效能与那些考虑进位步骤的更复杂指标相差无几,但更简洁。

Q2:多模态AI在乘法题上的失误,到底是看错了数字还是算错了?

A:根本原因是算错了,而非看错。专项感知检查实验显示,所有模型在所有模态下的数字识别准确率均超过99%。但在后续乘法计算中,准确率随算术负担C增大而大幅下降。这确证了失败根源在于模型计算模块的能力局限,而非多模态感知环节的缺陷。

Q3:为什么给AI强制训练某种乘法策略反而让准确率下降?

A:核心原因在于,模型原生的“内部路由机制”——即其根据题目特征动态选择最优计算策略的能力——比任何单一的、固定的策略都更优化。通过LoRA适配器进行的轻量级训练,强行将模型锁定于特定套路,干扰了其原有的、适应性更强的动态决策流程。实验中,策略补丁引发的答案“翻转”绝大多数是由对变错。这表明,外部干预破坏了模型自然的、上下文相关的计算调度,而非策略本身存在绝对优劣。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策