GPT、Claude、Gemini参数量揭秘：社区热议的API推测法全解析

2026-05-17阅读 0热度 0

Claude

一项发布于 arXiv 的研究正引发技术社区的深度讨论。研究者李博杰提出的“不可压缩知识探针”框架，旨在仅通过黑盒 API 调用，逆向估算大语言模型的参数规模。

这项工作的起源，是一个持续三年的非正式测试。团队长期向各代主流模型提问同一个冷门问题：“你了解中科大 Hackergame 吗？”——一项 CTF 网络安全竞赛。这个提问如同一个知识基准点，清晰揭示了模型对世界事实认知的演进路径。

演进轨迹颇具启发性：2024年5月，GPT-4o 的回答仍存在事实性错误；至2025年2月，Claude 3.7 Sonnet 已能准确列出2024赛季的19道题目；而到2026年4月，多个前沿模型已能精确回忆连续多届赛事的细节。

这一现象催生了正式研究。在 DeepSeek-V4 发布后，团队利用 AI Agent 耗时四天，自主构建了完整的 IKP 数据集。该数据集包含1400个问题，按信息稀缺性分为7个层级，并在27家厂商的188个模型上完成了全面测试。

核心假设与方法论

研究的核心假设是：模型的逻辑推理能力可通过技术手段压缩，但对冷门事实性知识的记忆容量，却难以被大幅压缩。这部分能力主要受物理参数规模制约——参数越多，记忆“冷知识”的潜力越大。

基于此，研究者在89个参数量已知的开源模型上（规模从1.35亿至1.6万亿参数），拟合出事实准确率与参数量之间的对数线性关系。拟合优度 R² 达0.917，显示出强相关性。随后，他们利用这一关系对主流闭源模型的参数量进行了估算。

根据论文给出的估算结果（其90%置信区间约为0.3至3倍），几个关键模型的估算规模如下：

GPT-5.5：约 9 万亿参数
Claude Opus 4.7：约 4 万亿参数
GPT-5.4：约 2.2 万亿参数
Claude Sonnet 4.6：约 1.7 万亿参数
Gemini 2.5 Pro：约 1.2 万亿参数

除了参数估算，论文还揭示了两项关键发现：

其一，模型的记忆选择并非完全依据学术影响力。引用量和 h 指数并不能有效预测研究者是否被模型记住。模型更倾向于记忆在特定领域产生实质性影响的工作。

其二，通过对跨越三年的96个开源模型数据分析，模型事实记忆容量的“时间系数”在统计上接近零。这意味着，在同等参数下，模型记忆事实的能力并未随时间显著提升。这与“Densing Law”预测的模型效率提升规律相悖，表明当前推理基准可能已趋饱和，而事实容量仍主要受参数规模这一硬性约束。

社区反响：数据驱动的猜想与质疑

这组直观数据迅速传播，也引发了广泛争议。

有观点将这组估算与近期 Claude Opus 4.7 在部分长文本任务中的体验波动关联，构建了一套叙事：Anthropic 因算力储备约为 OpenAI 的四分之一，在训练 Mythos 模型后资源紧张，可能将 Opus 4.7 的参数从上一代的 5.3T 调整至 4T；而 OpenAI 则凭借充足算力将 GPT-5.5 推至 9T，从而实现体验反超。

当然，更多声音对估算数字和方法论本身提出了质疑。

对于 GPT-5.5 约 9 万亿参数的估算，不少从业者认为与实际服务能力不符。有分析指出，若规模真达此量级，以 OpenAI 现有基础设施，难以支撑其发布节奏。此外，从 GPT-5.4 到 GPT-5.5 的性能提升幅度，似乎也与近10倍的参数差距不匹配。两者规模之比可能在2倍左右更为合理。

方法论也面临挑战。一个关键质疑是：通过定向引入“合成数据”进行微调，同样能显著提升模型对特定冷门知识的掌握。这直接动摇了“事实知识不可压缩”这一核心前提的有效性。

估算结果与行业既有认知也存在冲突。根据该方法，Gemini 2.5 Pro 和 Claude Sonnet 规模约 1.7T，而行业已知的国内模型如 Kimi k2.6 和 GLM 5.1 约为 800B。若参数差距仅在两倍左右，单纯的数据差异难以解释目前存在的性能鸿沟。

更直接的矛盾点在于历史数据。业内普遍认为 GPT-4 规模约 1.7T，这与论文对 GPT-5.4 约 2.2T 的估算出入较大，引发了对其校准基准的疑问。

值得注意的是，发起相关讨论的博主本人也补充说明：“这些数字不应被视为事实，置信区间非常大，我私下收到的反馈表明某些模型的估算可能相差甚远。”

建设性探讨：超越争议的思考

在争议之外，技术社区也涌现出许多建设性探讨，试图深化对这一问题的理解。

例如，有观点指出，MoE（混合专家）架构与传统稠密模型在知识压缩效率上可能存在本质差异。在 MoE 模型中，事实知识可能分散存储于不同专家网络，这或许会影响 IKP 方法的测量准确性。因此，建议将两类模型分开统计，以观察更清晰的趋势。

无论如何，这项研究及其引发的讨论，都指向一个核心议题：在模型规模成为核心商业机密和竞争壁垒的当下，如何从外部客观、可靠地评估这一关键指标？IKP 框架提供了一种新颖的思路。尽管其准确性和普适性仍需更多验证，但它无疑为这场“黑盒猜谜”游戏，投下了一枚值得深思的探针。

GPT、Claude、Gemini参数量揭秘：社区热议的API推测法全解析

核心假设与方法论

社区反响：数据驱动的猜想与质疑

建设性探讨：超越争议的思考

相关阅读

最新教程

最新资讯