GPT、Claude、Gemini参数量揭秘:社区热议的API推测法全解析

2026-05-17阅读 0热度 0
Claude

一项发布于 arXiv 的研究正引发技术社区的深度讨论。研究者李博杰提出的“不可压缩知识探针”框架,旨在仅通过黑盒 API 调用,逆向估算大语言模型的参数规模。

这项工作的起源,是一个持续三年的非正式测试。团队长期向各代主流模型提问同一个冷门问题:“你了解中科大 Hackergame 吗?”——一项 CTF 网络安全竞赛。这个提问如同一个知识基准点,清晰揭示了模型对世界事实认知的演进路径。

演进轨迹颇具启发性:2024年5月,GPT-4o 的回答仍存在事实性错误;至2025年2月,Claude 3.7 Sonnet 已能准确列出2024赛季的19道题目;而到2026年4月,多个前沿模型已能精确回忆连续多届赛事的细节。

这一现象催生了正式研究。在 DeepSeek-V4 发布后,团队利用 AI Agent 耗时四天,自主构建了完整的 IKP 数据集。该数据集包含1400个问题,按信息稀缺性分为7个层级,并在27家厂商的188个模型上完成了全面测试。

核心假设与方法论

研究的核心假设是:模型的逻辑推理能力可通过技术手段压缩,但对冷门事实性知识的记忆容量,却难以被大幅压缩。这部分能力主要受物理参数规模制约——参数越多,记忆“冷知识”的潜力越大。

基于此,研究者在89个参数量已知的开源模型上(规模从1.35亿至1.6万亿参数),拟合出事实准确率与参数量之间的对数线性关系。拟合优度 R² 达0.917,显示出强相关性。随后,他们利用这一关系对主流闭源模型的参数量进行了估算。

根据论文给出的估算结果(其90%置信区间约为0.3至3倍),几个关键模型的估算规模如下:

  • GPT-5.5:约 9 万亿参数
  • Claude Opus 4.7:约 4 万亿参数
  • GPT-5.4:约 2.2 万亿参数
  • Claude Sonnet 4.6:约 1.7 万亿参数
  • Gemini 2.5 Pro:约 1.2 万亿参数

除了参数估算,论文还揭示了两项关键发现:

其一,模型的记忆选择并非完全依据学术影响力。引用量和 h 指数并不能有效预测研究者是否被模型记住。模型更倾向于记忆在特定领域产生实质性影响的工作。

其二,通过对跨越三年的96个开源模型数据分析,模型事实记忆容量的“时间系数”在统计上接近零。这意味着,在同等参数下,模型记忆事实的能力并未随时间显著提升。这与“Densing Law”预测的模型效率提升规律相悖,表明当前推理基准可能已趋饱和,而事实容量仍主要受参数规模这一硬性约束。

社区反响:数据驱动的猜想与质疑

这组直观数据迅速传播,也引发了广泛争议。

有观点将这组估算与近期 Claude Opus 4.7 在部分长文本任务中的体验波动关联,构建了一套叙事:Anthropic 因算力储备约为 OpenAI 的四分之一,在训练 Mythos 模型后资源紧张,可能将 Opus 4.7 的参数从上一代的 5.3T 调整至 4T;而 OpenAI 则凭借充足算力将 GPT-5.5 推至 9T,从而实现体验反超。

当然,更多声音对估算数字和方法论本身提出了质疑。

对于 GPT-5.5 约 9 万亿参数的估算,不少从业者认为与实际服务能力不符。有分析指出,若规模真达此量级,以 OpenAI 现有基础设施,难以支撑其发布节奏。此外,从 GPT-5.4 到 GPT-5.5 的性能提升幅度,似乎也与近10倍的参数差距不匹配。两者规模之比可能在2倍左右更为合理。

方法论也面临挑战。一个关键质疑是:通过定向引入“合成数据”进行微调,同样能显著提升模型对特定冷门知识的掌握。这直接动摇了“事实知识不可压缩”这一核心前提的有效性。

估算结果与行业既有认知也存在冲突。根据该方法,Gemini 2.5 Pro 和 Claude Sonnet 规模约 1.7T,而行业已知的国内模型如 Kimi k2.6 和 GLM 5.1 约为 800B。若参数差距仅在两倍左右,单纯的数据差异难以解释目前存在的性能鸿沟。

更直接的矛盾点在于历史数据。业内普遍认为 GPT-4 规模约 1.7T,这与论文对 GPT-5.4 约 2.2T 的估算出入较大,引发了对其校准基准的疑问。

值得注意的是,发起相关讨论的博主本人也补充说明:“这些数字不应被视为事实,置信区间非常大,我私下收到的反馈表明某些模型的估算可能相差甚远。”

建设性探讨:超越争议的思考

在争议之外,技术社区也涌现出许多建设性探讨,试图深化对这一问题的理解。

例如,有观点指出,MoE(混合专家)架构与传统稠密模型在知识压缩效率上可能存在本质差异。在 MoE 模型中,事实知识可能分散存储于不同专家网络,这或许会影响 IKP 方法的测量准确性。因此,建议将两类模型分开统计,以观察更清晰的趋势。

无论如何,这项研究及其引发的讨论,都指向一个核心议题:在模型规模成为核心商业机密和竞争壁垒的当下,如何从外部客观、可靠地评估这一关键指标?IKP 框架提供了一种新颖的思路。尽管其准确性和普适性仍需更多验证,但它无疑为这场“黑盒猜谜”游戏,投下了一枚值得深思的探针。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策