Scaling Laws深度解析:前OpenAI安全VP揭秘数据误区
停更13个月后,前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人翁荔,在个人博客Lil'Log上发布万字长文《Scaling Laws, Carefully》。她自嘲“迟到了三年多”,但这篇文章从头梳理了大模型行业数百亿美元投入的核心——Scaling Laws。结论一出,引发业内震动:当前模型的数据配比,很可能从一开始就存在根本性偏差。
从Kaplan到Chinchilla:被颠倒的行业共识
故事始于2020年。OpenAI研究员Jared Kaplan发表论文,指出在log-log坐标中,训练损失随参数量、数据量和算力呈幂律下降——模型规模应比数据量增长更快。GPT-3正是这一结论的产物:1750亿参数,训练数据仅3000亿token。
两年后,DeepMind团队用更大规模实验推翻了这一结论。他们对比了2800亿参数的Gopher和700亿参数的Chinchilla,同等算力下——后者参数仅为前者的四分之一,但训练数据是四倍多。结果Chinchilla在所有评测中碾压Gopher。Chinchilla揭示的规律是:参数与数据应等比增长,最佳比例约为1:20,而非Kaplan主张的参数激增、数据滞后。这也解释了为何后来Llama、DeepSeek等模型参数量不及GPT-3,性能却远超后者。
翁荔剖析了Kaplan的偏差根源:实验最大模型仅15亿参数,小规模区间的拟合差异外推至万亿级别后演变为系统性错误;同时Kaplan排除了embedding层参数计数,这一口径在小模型上影响极大。更意外的是,2024年Epoch AI团队逐行复现Chinchilla拟合代码时发现两个bug——损失函数取均值而非求和,导致优化器误判收敛;核心幂律指数被四舍五入至两位数,产生虚假精度。修正后的数据再次证实了等比增长的结论。
数据墙逼近,重复训练边际价值指数衰减
上述讨论均基于“训练数据无限且不重复”的假设,但高质量文本数据预计2026至2028年即将枯竭。研究显示,重复数据的有效价值呈指数衰减,每多训练一轮,边际收益急剧递减。翁荔在文中嵌入的交互式模拟器直观展示了工程细节的敏感性——仅调整拟合精度或噪声水平,外推预测就可能天差地别。
翁荔最终写下这样一句三年凝练的判断:Scaling Laws不是物理定律,而是对工程细节高度敏感的观测性指南。