AI乘法计算盲区揭秘：德克萨斯与新加坡国立大学研究深度解析

2026-05-15阅读 0热度 0

新加坡

德克萨斯大学奥斯汀分校与新加坡国立大学的一项联合研究，其预印本论文（arXiv:2604.18203v1）已于2026年4月20日发布，并计划于同年计算语言学顶级会议ACL Findings上发表。该研究为界定当前多模态大语言模型在基础算术任务上的能力边界，提供了关键性的实证数据。

一、多模态输入的算术陷阱

请尝试计算：47乘以36的结果是多少？

对人类而言，这是一道基础的两位数乘法。但如果我们改变题目的呈现方式：不是给出“47×36”这串数字，而是展示一张包含该算式的图片，或者用语音读出“四十七乘以三十六”。题目的本质难度改变了吗？

对人类来说，答案不变。然而，对于那些宣称能理解图像、音频和文本的多模态大语言模型，答案却变得不确定。研究者发现一个关键现象：同一道乘法题，当以纯数字文本输入时，模型可能正确作答；一旦将题目渲染为图像或转换为语音，其表现便出现显著波动。甚至，将数字表达式“47×36”改写为文字“四十七乘以三十六”，模型的准确率也可能发生变化。

这引出了一个核心问题：模型的失败，源于感知障碍，还是计算能力的根本缺陷？研究团队通过一系列精密实验，试图分离这两个因素。

二、量化计算难度：算术负担指数C

要系统分析失败原因，首先需要精确量化“一道乘法题有多难”。

直觉上，数字位数越多越难，但这并不精确。例如，1000×200就比89×67更简单，尽管前者位数更多。关键在于需要执行“有效计算”的非零数字位数——因为乘以零的步骤可以忽略。

为此，研究团队定义了“算术负担”指数C。其计算方式为：两个乘数的总位数，乘以这两个数中非零位数的总数。以47×36为例，总位数4，非零位数4，故C=16。而1000×200，总位数7，非零位数仅“1”和“2”，故C=14，难度更低。

这个指标如同评估一道工序：不仅要统计步骤总数，更要区分哪些是核心步骤。后续验证表明，C在预测模型计算准确率方面表现优异，其决定系数R²普遍高于0.5。与那些纳入进位传播、中间步骤数等复杂因素的指标相比，C的预测效能差距不大，是一个简洁而有力的度量工具。

三、实验设计：构建跨模态基准测试集

基于算术负担指数C，研究团队构建了一个包含一万道配对题目的基准测试集。每道题目均以四种模态呈现：纯数字文本、数字单词文本、文本渲染成的图像、以及音频。

题目设计具有系统性。研究者预设了多种数字模板来控制操作数结构，包括单个随机数、两位随机数（VV）、三位随机数（VVV）、带尾部零的数（V0， V00， VV0）以及非相邻非零位数（V0V）。这种设计能在不改变题目外在形式的前提下，系统性地调节算术复杂度和进位模式。

参与评估的模型阵容包括：谷歌Gemini 2.5 Flash、阿里云Qwen3-VL（30亿与2350亿参数版）、OpenAI GPT-4o与GPT-5.4，以及xAI Grok 4.20。针对需要深入分析模型内部机制（如访问词元损失）的实验，则重点使用了Qwen3-VL的两个版本。

四、核心发现：感知无误，计算失准

测试结果指向一个明确结论：在多模态大模型中，感知与计算是分离的，且计算是主要瓶颈。

研究设计了两种任务：一是“识别任务”，要求模型识别图片或音频中的数字；二是“计算任务”，要求将识别出的两个数字相乘。

如果模型在图片乘法题上出错，原因无非是感知失败或计算失败。实验数据显示，所有模型在所有模态下的数字识别准确率均超过99%。这意味着，模型能近乎完美地“读取”信息。然而，在随后的乘法计算环节，准确率随着算术负担C值的增加而急剧下降。当C超过100时，多数模型的正确率已接近零。

这一发现意义重大：多模态AI的乘法失败，根源不在于“看不清”或“听不清”，而在于其核心算术引擎的“算不准”。这消除了对多模态感知干扰的疑虑，但同时也揭示了其在需要可靠数值计算场景中的根本性限制。

五、模型横向对比：抗压能力分析

利用统一的难度标尺C，可以对不同模型的抗压能力进行横向比较。研究者为每个模型在不同输入形式下拟合了准确率预测曲线，并提取关键参数。

其中最直观的是“50%准确率门槛”，即C值达到多少时，模型预测准确率降至一半。门槛越高，表明模型处理复杂计算的能力越强。

Gemini 2.5 Flash、Qwen3-VL-30B和GPT-4o表现相近，其50%门槛约在C=50至54之间。Qwen3-VL-235B则显著更强，门槛在74到75之间，体现了参数规模的优势。GPT-5.4和Grok 4.20总体表现更佳，但对输入格式敏感——在纯数字文本或数字图片上表现良好，一旦面对字母拼写的图片，门槛便明显下降。

不同模态间的差异主要体现在起始准确率（截距）上，而非下降速率。图片和音频模态通常从一个更低的基准准确率开始，但随着C值增大，其准确率下降的斜率与文本模态基本一致。数字图片的表现与数字文本接近，而字母拼写图片是各模型的共同弱点。音频模态在此次评估中未表现出统一的惩罚效应。

一个值得注意的案例是谷歌Gemini 3.1 Pro。在C≤100的原始测试范围内，其表现近乎完美，但代价是推理速度极慢（每题超一小时，其他模型仅需数分钟）和超长的输出。当测试范围扩展至C=400时，其准确率转折点出现在C≈360附近，对应“一千六百多万乘以五十六亿”这类超大数字运算。

六、内部算法偏好：AI的“计算策略”

在明确错误点后，研究者深入探究：AI进行乘法运算时，内部倾向于采用何种计算策略？

人类会根据题目特点选择策略。例如，计算49×51可能用“取整补偿法”（RC），计算47×60可能用“分配分解法”（DD），而87×96则需标准的“列式乘法”（OT）。

团队设计了“偏好测试”：为每种策略编写一段简短提示，接在题目后，然后测量模型“延续”每种提示的意愿强度，技术上通过计算交叉熵损失值实现。损失值越低，表明该策略越符合模型的自然倾向。

结果高度一致：无论是30亿还是2350亿参数的模型，无论文字或图片输入，AI都对分配分解法（DD）表现出最强的偏好（损失值最低）。列式乘法（OT）始终是最不受欢迎的选项。通过替换测试模板措辞的对照实验确认，这种偏好源于内在的计算逻辑，而非简单的文本匹配。

七、干预策略的失败：LoRA适配器实验

既然AI有内在策略偏好，能否通过训练强制其使用特定策略以提升准确率？

研究团队尝试了轻量级训练方法——LoRA适配器。他们训练了三个“行为补丁”：分别鼓励使用RC、DD、OT策略，另有一个仅模仿推理格式的对照补丁。每个补丁使用约一千道精选例题训练。

结果出人意料且具有启发性。在测试中，三个策略补丁在432次比较中引发了114次答案正确性的“翻转”。然而，其中仅1次是从错误变为正确，其余113次均为从正确变为错误。在2350亿参数版本中，121次翻转里仅4次变好，117次变差。甚至仅模仿格式的对照补丁也主要导致准确率下降。

这表明，模型原生的、根据题目特征动态选择策略的“内部路由机制”，比任何人为强加的单一固定策略都更优化、更灵活。外部干预强行固化其计算路径，反而干扰并破坏了这种自适应的调度能力。错误分析显示，强制策略导致的最常见错误是“漏掉某个中间乘积项”。

八、策略的神经表征：参数空间中的几何关系

为从底层理解不同算法策略是否对应不同的神经计算机制，研究者进行了向量几何分析。

每个训练好的LoRA补丁对应一组参数更新向量。如果两种策略的补丁向量方向高度一致（余弦相似度接近1），说明它们调用相似的神经机制；若方向接近正交（相似度接近0），则意味着它们激活了不同的计算子空间。

结果显示，三种策略补丁的向量方向彼此几乎正交，余弦相似度均接近零。为排除随机性，研究者用不同随机种子重复训练相同策略补丁，发现“同策略不同训练”向量间的相似度，显著高于“不同策略”向量间的相似度。这证实了三种人类算法策略在AI的参数空间中，确实占据了各自独立的位置，有着不同的“神经实现”。

九、对抗性测试：策略偏好的鲁棒性

研究团队还设计了“对抗性陷阱”题目，测试AI的策略偏好在面对误导性线索时是否稳定。

例如，“反取整陷阱”题让操作数表面接近整十整百，诱使模型使用取整补偿法，但实际上该方法更繁琐。“缺项分解陷阱”则测试模型在使用分配分解法时是否会遗漏必要项。

实验表明，陷阱题能显著改变模型的策略偏好。面对反取整陷阱，30亿参数模型对RC策略的偏好分数从26.5%升至34.5%，恰好落入圈套。2350亿参数版本也有类似变化但幅度更小（12.4%升至15.6%），展现出更强的鲁棒性。这意味着，更大规模的模型不仅计算能力更强，其内部策略选择机制也更为稳定，不易被表面特征误导。

总结与启示

这项研究揭示了一个深刻现实：当前多模态大语言模型的“智能”存在特定且脆弱的边界。它们能近乎完美地跨模态感知数学符号，但核心瓶颈在于算术计算能力本身。随着算术负担C的增加，其准确率以可预测的方式衰减，且这种衰减趋势在不同模态下高度一致——多模态外壳共享着同一套计算核心的极限。

研究还表明，AI内部更偏爱分配分解法，这种偏好有其计算逻辑基础，并受题目格式和操作数结构影响。试图通过轻量级训练强行改变这种偏好，反而会扰乱其原本有效的内部路由机制。这对实际应用具有明确启示：在需要高可靠性算术的场景中，与其训练模型掌握特定“心算”算法，不如为其集成外部计算工具（如计算器API），将感知理解与数值计算任务解耦，可能是更务实、高效的工程路径。

对技术细节感兴趣的读者，可通过论文编号arXiv:2604.18203查阅完整原文与实验数据。

Q&A

Q1：算术负担指标C是怎么计算的？为什么用这个指标？

A：算术负担C的计算公式为：两个乘数的总位数 × 两数中非零位数的总数。例如47×36，总位数4，非零位数4，故C=16。采用此指标，是因为它能简洁反映乘法实际所需的计算量——零乘运算可跳过，非零位数才是核心。实证表明，C对AI计算准确率的预测能力很强（R²常>0.5），其预测效能与那些考虑进位步骤的更复杂指标相差无几，但更简洁。

Q2：多模态AI在乘法题上的失误，到底是看错了数字还是算错了？

A：根本原因是算错了，而非看错。专项感知检查实验显示，所有模型在所有模态下的数字识别准确率均超过99%。但在后续乘法计算中，准确率随算术负担C增大而大幅下降。这确证了失败根源在于模型计算模块的能力局限，而非多模态感知环节的缺陷。

Q3：为什么给AI强制训练某种乘法策略反而让准确率下降？

A：核心原因在于，模型原生的“内部路由机制”——即其根据题目特征动态选择最优计算策略的能力——比任何单一的、固定的策略都更优化。通过LoRA适配器进行的轻量级训练，强行将模型锁定于特定套路，干扰了其原有的、适应性更强的动态决策流程。实验中，策略补丁引发的答案“翻转”绝大多数是由对变错。这表明，外部干预破坏了模型自然的、上下文相关的计算调度，而非策略本身存在绝对优劣。