GPT-5.5参数真相：10T传闻被证伪，实际仅1.5T

2026-05-17阅读 0热度 0

拟合

五一前夕，一篇关于GPT-5.5参数规模的论文在AI社区引发了震动。该研究采用名为“不可压缩知识探针”的新方法，估算出GPT-5.5拥有近10万亿参数的惊人规模，远超此前关于GPT-4的传闻。然而，这一爆炸性结论在几天后便遭遇了学术界的严格审视。

这篇由Pine AI首席科学家李博杰发布在arXiv上的论文《不可压缩知识探针》，其核心估算数据极具冲击力：

来自UC伯克利CHAI实验室的Lawrence Chan与UK AISI的研究员Ben Sturgeon对论文进行了复现与审查，发现了其中关键的方法论与代码偏差。

逻辑漏洞：参数估值从10T骤降至1.5T的关键原因

修正这些偏差后，估算结果发生了戏剧性逆转。备受关注的GPT-5.5参数估值从9.7T大幅缩水至约1.5T，且其90%置信区间变得异常宽泛（256B至8.3T）。

问题主要集中于两个核心环节。

论文声称未对模型得分进行保底处理，但复现者发现，在计算小模型得分时，负分被悄然归零。这一操作至关重要：当模型面对完全未知的冷知识时，随机猜测的得分理应为负。移除这一“归零”操作后，小模型得分显著下降，导致原本陡峭的“得分-参数”拟合曲线趋于平缓，从而使得对大模型的参数估算被严重高估。

另一个硬伤在于评测数据集本身。复现研究发现，用于探测模型知识容量的那套“冷知识题库”质量存在问题。大约四分之一的题目存在歧义（例如研究员重名混淆），甚至部分标准答案本身就是错误的。使用这种有缺陷的数据集来衡量模型的“知识”储备，其可靠性与有效性自然大打折扣。

更具戏剧性的是，论文作者李博杰后续承认，这项研究是在AI智能体的辅助下，仅用四天时间完成的早期探索。Lawrence Chan将这种研究模式戏称为“槽点满满的Vibe-coding”。

尽管具体数值估算被证伪，但该研究提出的核心理论——不可压缩知识探针——其方向性价值仍获得了学界认可。这或许是整个事件中最具建设性的部分。

简而言之，IKP理论将大模型的能力解构为两个部分：

程序性能力（如逻辑推理、代码生成）：这部分是“可压缩”的。通过模型架构与训练算法的优化，参数量更小的模型完全可能具备更强的推理性能。
事实性知识（如具体日期、冷门概念）：这部分是“不可压缩”的。你可以将模型视为一个知识存储单元，记忆一个事实就需要占用一定的参数空间。知道就是知道，不知道就是不知道，很难通过压缩或推理凭空产生。

因此，通过测试模型掌握多少这类“不可压缩”的冷门事实知识，来反推其参数规模，这一方法论的基本方向是合理的。修正偏差后，基于IKP的估算值虽然大幅变动，但模型之间相对的“知识容量”排名仍具备一定的参考意义。

修正后的估算结果如下：

抛开具体的参数数字争议，这次探测仍揭示了一些有价值的洞察。

梯队分布： GPT-5.5在最冷僻知识（T6级别）的测试中依然表现突出，稳居第一梯队。Claude Opus 4.7、o1、Grok-4等模型则构成了竞争激烈的第二梯队，其有效知识容量非常接近。

MoE模型的本质： 研究证实，对于混合专家模型而言，其知识总量取决于模型的总参数量，而非每次推理时激活的参数量。这意味着，若要构建一个知识广博的模型，增加参数总量仍是基础路径。

“思考模式”的局限： 测试同时表明，开启“思维链”模式并不能显著提升模型的知识储备量。这印证了一个基本观点：深度思考有助于更好地组织和调用已知信息，但无法生成从未学习过的知识。

Lawrence Chan在总结中略带调侃地指出，这项工作的粗糙风格，确实符合“AI智能体四天速成”的特征。

这场“参数神话”的破灭，更像是一次有益的学术纠偏。它提醒行业：盲目追求参数规模的时代正在成为过去。

GPT-5.5的估算参数从10T“缩水”至1.5T，并不代表其能力减弱。相反，这可能暗示着OpenAI在训练数据质量、算法效率与模型架构优化上取得了显著突破，从而能够以更少的参数实现更强大的综合性能。

正如研究者所言，GPT-5.5的确切参数规模我们仍无从知晓。但IKP方法为我们窥探那些不透明的大型语言模型的内部规模，开辟了一条有潜力的新路径。它启示我们，在通往更高级智能的道路上，目标或许不再是单纯的“扩大存储”，而是构建“更高效的知识索引与处理系统”。

原论文作者李博杰对此保持了开放态度，他承认早期估算存在很大不确定性，并直言“任何单一的点估计都不够严谨”。他将IKP视为一个研究起点，期待后续工作能将其完善。