GPT-5.5参数真相:10T传闻被证伪,实际仅1.5T
五一前夕,一篇关于GPT-5.5参数规模的论文在AI社区引发了震动。该研究采用名为“不可压缩知识探针”的新方法,估算出GPT-5.5拥有近10万亿参数的惊人规模,远超此前关于GPT-4的传闻。然而,这一爆炸性结论在几天后便遭遇了学术界的严格审视。
这篇由Pine AI首席科学家李博杰发布在arXiv上的论文《不可压缩知识探针》,其核心估算数据极具冲击力:
- GPT-5.5:9.7万亿(9.7T)参数
- Claude Opus 4.7:4.0万亿(4.0T)参数
- o1:3.5万亿(3.5T)参数
来自UC伯克利CHAI实验室的Lawrence Chan与UK AISI的研究员Ben Sturgeon对论文进行了复现与审查,发现了其中关键的方法论与代码偏差。
逻辑漏洞:参数估值从10T骤降至1.5T的关键原因
修正这些偏差后,估算结果发生了戏剧性逆转。备受关注的GPT-5.5参数估值从9.7T大幅缩水至约1.5T,且其90%置信区间变得异常宽泛(256B至8.3T)。
问题主要集中于两个核心环节。
被人工修饰的拟合曲线
论文声称未对模型得分进行保底处理,但复现者发现,在计算小模型得分时,负分被悄然归零。这一操作至关重要:当模型面对完全未知的冷知识时,随机猜测的得分理应为负。移除这一“归零”操作后,小模型得分显著下降,导致原本陡峭的“得分-参数”拟合曲线趋于平缓,从而使得对大模型的参数估算被严重高估。
数据集缺陷:约25%的测试题目存在错误
另一个硬伤在于评测数据集本身。复现研究发现,用于探测模型知识容量的那套“冷知识题库”质量存在问题。大约四分之一的题目存在歧义(例如研究员重名混淆),甚至部分标准答案本身就是错误的。使用这种有缺陷的数据集来衡量模型的“知识”储备,其可靠性与有效性自然大打折扣。
更具戏剧性的是,论文作者李博杰后续承认,这项研究是在AI智能体的辅助下,仅用四天时间完成的早期探索。Lawrence Chan将这种研究模式戏称为“槽点满满的Vibe-coding”。
核心理论框架依然成立
尽管具体数值估算被证伪,但该研究提出的核心理论——不可压缩知识探针——其方向性价值仍获得了学界认可。这或许是整个事件中最具建设性的部分。
简而言之,IKP理论将大模型的能力解构为两个部分:
- 程序性能力(如逻辑推理、代码生成):这部分是“可压缩”的。通过模型架构与训练算法的优化,参数量更小的模型完全可能具备更强的推理性能。
- 事实性知识(如具体日期、冷门概念):这部分是“不可压缩”的。你可以将模型视为一个知识存储单元,记忆一个事实就需要占用一定的参数空间。知道就是知道,不知道就是不知道,很难通过压缩或推理凭空产生。
因此,通过测试模型掌握多少这类“不可压缩”的冷门事实知识,来反推其参数规模,这一方法论的基本方向是合理的。修正偏差后,基于IKP的估算值虽然大幅变动,但模型之间相对的“知识容量”排名仍具备一定的参考意义。
修正后的估算结果如下:
- GPT-5.5:9.7T -> 1.5T
- Claude Opus 4.7:4.0T -> 1.1T
- DeepSeek R1(实际大小671B):424B -> 760B
模型知识储备的真实格局
抛开具体的参数数字争议,这次探测仍揭示了一些有价值的洞察。
梯队分布: GPT-5.5在最冷僻知识(T6级别)的测试中依然表现突出,稳居第一梯队。Claude Opus 4.7、o1、Grok-4等模型则构成了竞争激烈的第二梯队,其有效知识容量非常接近。
MoE模型的本质: 研究证实,对于混合专家模型而言,其知识总量取决于模型的总参数量,而非每次推理时激活的参数量。这意味着,若要构建一个知识广博的模型,增加参数总量仍是基础路径。
“思考模式”的局限: 测试同时表明,开启“思维链”模式并不能显著提升模型的知识储备量。这印证了一个基本观点:深度思考有助于更好地组织和调用已知信息,但无法生成从未学习过的知识。
Lawrence Chan在总结中略带调侃地指出,这项工作的粗糙风格,确实符合“AI智能体四天速成”的特征。
Scaling Law是否依然有效?
这场“参数神话”的破灭,更像是一次有益的学术纠偏。它提醒行业:盲目追求参数规模的时代正在成为过去。
GPT-5.5的估算参数从10T“缩水”至1.5T,并不代表其能力减弱。相反,这可能暗示着OpenAI在训练数据质量、算法效率与模型架构优化上取得了显著突破,从而能够以更少的参数实现更强大的综合性能。
正如研究者所言,GPT-5.5的确切参数规模我们仍无从知晓。但IKP方法为我们窥探那些不透明的大型语言模型的内部规模,开辟了一条有潜力的新路径。它启示我们,在通往更高级智能的道路上,目标或许不再是单纯的“扩大存储”,而是构建“更高效的知识索引与处理系统”。
原论文作者李博杰对此保持了开放态度,他承认早期估算存在很大不确定性,并直言“任何单一的点估计都不够严谨”。他将IKP视为一个研究起点,期待后续工作能将其完善。


















