Scaling Laws深度解析：前OpenAI安全VP揭秘数据误区

2026-06-27阅读 0热度 0

OpenAI

停更13个月后，前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人翁荔，在个人博客Lil'Log上发布万字长文《Scaling Laws, Carefully》。她自嘲“迟到了三年多”，但这篇文章从头梳理了大模型行业数百亿美元投入的核心——Scaling Laws。结论一出，引发业内震动：当前模型的数据配比，很可能从一开始就存在根本性偏差。

从Kaplan到Chinchilla：被颠倒的行业共识

故事始于2020年。OpenAI研究员Jared Kaplan发表论文，指出在log-log坐标中，训练损失随参数量、数据量和算力呈幂律下降——模型规模应比数据量增长更快。GPT-3正是这一结论的产物：1750亿参数，训练数据仅3000亿token。

两年后，DeepMind团队用更大规模实验推翻了这一结论。他们对比了2800亿参数的Gopher和700亿参数的Chinchilla，同等算力下——后者参数仅为前者的四分之一，但训练数据是四倍多。结果Chinchilla在所有评测中碾压Gopher。Chinchilla揭示的规律是：参数与数据应等比增长，最佳比例约为1:20，而非Kaplan主张的参数激增、数据滞后。这也解释了为何后来Llama、DeepSeek等模型参数量不及GPT-3，性能却远超后者。

翁荔剖析了Kaplan的偏差根源：实验最大模型仅15亿参数，小规模区间的拟合差异外推至万亿级别后演变为系统性错误；同时Kaplan排除了embedding层参数计数，这一口径在小模型上影响极大。更意外的是，2024年Epoch AI团队逐行复现Chinchilla拟合代码时发现两个bug——损失函数取均值而非求和，导致优化器误判收敛；核心幂律指数被四舍五入至两位数，产生虚假精度。修正后的数据再次证实了等比增长的结论。

数据墙逼近，重复训练边际价值指数衰减

上述讨论均基于“训练数据无限且不重复”的假设，但高质量文本数据预计2026至2028年即将枯竭。研究显示，重复数据的有效价值呈指数衰减，每多训练一轮，边际收益急剧递减。翁荔在文中嵌入的交互式模拟器直观展示了工程细节的敏感性——仅调整拟合精度或噪声水平，外推预测就可能天差地别。

翁荔最终写下这样一句三年凝练的判断：Scaling Laws不是物理定律，而是对工程细节高度敏感的观测性指南。

上一篇AI视频真假检测权威综述：动态可溯源可解释体系 下一篇年最新苹果Xcode 26.6十大新功能谷歌Gemini赋能编程助手全面深度对比

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Scaling Laws深度解析：前OpenAI安全VP揭秘数据误区

从Kaplan到Chinchilla：被颠倒的行业共识

数据墙逼近，重复训练边际价值指数衰减

相关阅读

最新教程

最新资讯