面壁智能Scaling Law深度解析:如何复现顶尖大模型的性能增长曲线
大约一个月前,马斯克的xAI团队开源了Grok-1,一个拥有3140亿参数的MoE大模型。单看参数量,它确实是个“庞然大物”,轻松超越了LLaMA 2的700亿。但很快,测试结果给这股热度泼了盆冷水:这个庞然大物的实际效果,竟然只和Mistral AI的8x7B MoE模型相当。业内不禁调侃:用这么大的“体格”,只打出这么点“伤害”,这算成功吗?
这件事再次印证了一个关键认知:在大模型领域,参数规模大,绝不等于性能好。其实,这个问题早在2021年就引起了国内一些团队的关注。面壁智能就是其中之一,他们在2021年6月发布的千亿MoE大模型CPM-2,便是早期探索的成果。
面壁智能CTO曾国洋分享道,团队从2020年GPT-3发布后开始训练大模型,也走过一些弯路。他们逐渐明确,提升模型效果是根本目标,但这绝不意味着只能靠堆砌参数和燃烧天价算力来实现。相反,“让每一个参数发挥最大的作用”,在同等参数量上实现更优性能,才是解决大模型“高效”训练的核心。这块领域,还有巨大的探索空间。
今年2月,面壁发布的MiniCPM 2B模型,初步验证了这套“低参数、高性能”的方法论。这个仅20亿参数的模型,性能却可媲美70亿参数的Mistral-7B。据了解,这套方法论也让面壁千亿大模型的训练成本大幅下降,这成为他们在天使轮仅获知乎数千万元投资后,仍能扩张团队并持续迭代千亿模型的关键。
在MiniCPM 2B的基础上,面壁于4月11日推出了新一代端侧旗舰模型系列:包括OCR能力显著增强、部分能力比肩Gemini Pro的28亿多模态模型MiniCPM-V 2.0;仅12亿参数却强过130亿的Llama 2、推理速度达人类语速近25倍的MiniCPM-1.2B;最小的128K长文本模型MiniCPM-2B-128K;以及性能增强的MoE架构模型。
需要特别注意的是,面壁训练这些小模型,目标绝非“放弃角逐AGI,转攻边缘市场”。恰恰相反,训练MiniCPM等小模型,正是为了更高效地训练能实现AGI的通用基座大模型。基于Scaling Law的科学方法论,通过小模型验证大模型的训练投入产出比,是面壁在2023年低调探索出的一条独特技术路线。
正是得益于这条路线,面壁在过去一年的融资市场上显得并不“着急”。公开信息显示,其天使轮融资仅来自知乎。然而在2023年,面壁不仅将团队从十余人扩展到百人规模,还在8月发布了稠密(非稀疏)的千亿参数大模型。近日,公司完成了新一轮数亿元融资,由春华创投、华&为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续支持。
有人算过一笔账:假设面壁的千亿基座模型训练成本只有其他粗放式训练团队的十分之一,那么面壁融资5000万所能达到的研发进度,可能相当于其他团队融资5个亿。换言之,在同等量级的资金、算力与人才资源下,面壁凭借效率优势,能比其他团队走得更远。
从这个角度看,面壁智能的价值可能被市场低估了。
一、刻在基因里的第一性原理:「高效」
2024年1月,ICLR会议论文接收结果公布,面壁智能团队的一篇题为《Predicting Emergent Abilities with Infinite Resolution Evaluation》的论文入选,引发了海内外多个关注Scaling Law的团队讨论,其中甚至包括OpenAI。
原因在于,这篇论文是OpenAI之外,首个实现了利用Scaling Prediction来预测下游任务性能的工作。Scaling Prediction这个概念,在OpenAI 2023年3月的GPT-4技术报告中被多次提及。当时,由于微软同时强调了其云基础设施的支撑作用,公众的讨论焦点更多被引向“大模型离不开大算力”。但面壁团队却敏锐地抓住了报告中的两个创新点:一是32K的长文本处理能力;二就是Scaling Law与Scaling Prediction——OpenAI轻描淡写地提到可以预测模型能力,却没有公布预测曲线。后者尤其让面壁团队感到震撼。
其实,在接触到Scaling Prediction之前,面壁研究大模型的第一性原理就是“高效训练”。虽然公司成立于2022年8月,但其核心团队作为北京智源“悟道”项目的重要成员,从2020年就开始训练语言大模型。早期在资源受限的条件下研发“文源”模型时,团队就大量使用了分布式加速、参数高效微调等方法来降低成本,相关成果甚至在2022年发表于Nature子刊。
正因为开发了许多高效训练工具,面壁一度被外界认为是一家“大模型Infra(基础设施)”公司。但实际上,这些工具的开发始终服务于大模型训练本身。面壁是国内极少数同时兼具大模型算法与底层基础设施能力的团队。可以说,从做大模型的第一天起,“高效”就刻在了他们的基因里。
Scaling Prediction技术的出现,让面壁团队看到了革命性的可能。试想,如果能在训练大模型之前,就通过小实验预测出其性能,那么研究人员就可以像进行“数字孪生”实验一样,在小规模上快速试错、调整参数和配方,成功后再按比例放大。这将极大降低训练的时间与金钱成本,完美契合面壁对“高效”的追求。
因此,从2023年开始,面壁全力投入探索高效的Scaling Law,目标是用小十倍的参数模型,预测大十倍参数模型的性能。
面壁对“高效”的追求是系统性的,并不仅限于模型训练层。他们从算力、数据与算法三个层面同步切入,全面优化大模型研发的上下游工程。这种全方位推进的做法在国内大模型团队中并不多见,却更符合大模型作为“系统工程”的本质要求。
团队核心成员认为,从人工智能与社会发展的关系来看,如果实现AGI的路径成本高昂到无法承受,那么即使实现了,意义也将大打折扣。“模型的参数不可能无限堆叠,依赖显卡的做法也不能无限重复。在当前计算资源紧缺的背景下,思考如何可持续地训练大模型才是关键。”
“我们追求的是,在相同时间、同等参数量的条件下,实现更优的Scaling Law曲线。当模型效率优化到一定程度后,要继续精进,就必须结合数据、算力与算法的协同创新。”曾国洋总结道。
以数据工程为例,早在“悟道”时期,团队就发现数据清洗至关重要。他们曾将几个TB的原始数据清洗至仅200GB,训练出的模型效果反而更好。2023年“百模大战”喧嚣之下,面壁依然在数据这个“苦活累活”上深耕。首席研究员韩旭形容,数据工程是“血与泪的积累”,面对动辄数十PB的数据,他们最终创新性地让大模型辅助进行数据清洗和代码编写,近期也有相关论文发表。目前,面壁开源的Ultra系列对齐数据集(如UltraChat、UltraFeedback)已在全球范围内受到欢迎,被近200个大模型使用。
在算力端,面壁很早就开始布局国产芯片适配,自研了能在主流国产芯片上运行大模型的框架,并结合自研推理工具实现了“量化不掉点”,进一步降低成本。
当然,还有模型本身的超参选择、架构设计等,这些高效训练的方法论,最终都在MiniCPM系列模型上得到了验证。
二、Scaling Law:效率革命的关键支点
面壁智能CEO李大海在加入公司前,曾与所有核心成员深入交流,只为确认一件事:这家公司是否真的以追求AGI为信仰。得到肯定答案后,他毅然加入。在他看来,AI发展的目标不仅是让机器更智能,还要更高效,从而将人类从重复劳动中解放。这与面壁的技术路线不谋而合。
面壁发布MiniCPM后,外界多将其视为对“端侧大模型”的贡献。但李大海认为,MiniCPM更深层的意义,在于体现了团队对Scaling Law的科学理解。一个24亿参数的模型,性能达到130亿参数LLaMA-2的水平,与70亿的Gemma相当并远超20亿的Gemma,这本身就是一个强烈的信号。
“如果2B模型能比7B模型效果好,那么在同一套方法论下,我们的7B、70B模型,也可能比其他团队的100B模型更强。再结合MoE等技术,在特定任务上,参数量小于GPT-4的模型,或许也能逼近GPT-4的水平。”李大海解释道。
基于高效的Scaling Law,面壁规划了两条产品技术线:一是通用基座大模型,二是面向具体场景的端侧模型。这两条线看似不同,实则同源。“它们都是面壁通往AGI道路的一部分。”曾国洋说。
这好比飞机的发展史。莱特兄弟发明了飞机,但早期飞机载客量有限。直到空气动力学等基础理论突破后,人们才设计出更高效、更安全、载客更多的现代客机。OpenAI的GPT-3开创了千亿参数模型的范式,但从“技术普惠”的终极目标看,单纯“大力出奇迹”未必是最优解。大模型需要找到自己的“空气动力学”,而Scaling Prediction提供了这样一种可能。
研究员胡声鼎介绍,在ICLR那篇论文中,他们初步验证了用小模型预测大模型性能的可行性。他们训练了0.009B到0.03B的微型模型,将其表现外推,预测2.4B模型的性能,最终实际训练的2.4B模型表现确实落在预测区间附近。这就像一个“数字孪生”实验,在虚拟世界中低成本、快速地验证训练配方,大幅降低了试错成本。
基于此,团队核心成员表示,在这套方法论的指导下,他们有信心未来训练出性能对标甚至超越GPT-4的模型,找到更陡峭的模型能力成长曲线,“这才是AGI的可持续发展方案”。
而MiniCPM,正是这套科学Scaling Law的启示与产物。它一方面是对Scaling Prediction的印证,证明了存在更优的成长路径;另一方面,也同步孵化了极具潜力的端侧产品。
韩旭指出,端侧是一个重要市场。如果13B模型的能力能用2B模型实现,并在手机等设备上流畅运行,就没有理由使用更笨重的模型。团队已在尝试用iPhone 15 Pro运行仅12亿参数的MiniCPM-1.2B,每秒可生成25个token,达到人类语速的15-25倍。他预测,端侧模型在手机上跑出GPT-3.5的效果是可期的,随着模型与芯片性能的双重进化,最快一年左右可能实现,两年左右甚至有望在端侧部署GPT-4级别的模型。
当然,这套方法仍在完善中。胡声鼎坦言,目前面壁的Scaling Law路线主要能预测以生成为主、推理需求不高的任务,且由于下游任务的“涌现”特性,预测准确率约在95%。同时,由于OpenAI未公布细节,无法直接对比曲线。但对面壁而言,追赶OpenAI已非首要目标,他们已证明Scaling Prediction是实现高效大模型训练的有效手段。
换言之,面壁在小模型上每前进一小步,都意味着离通用大模型和AGI更近一步。
三、AGI长跑:不追风口,但求稳进
大模型爆发这一年多,国内外团队竞相发布新品、“秀肌肉”。作为国内最早入局的团队之一,面壁虽然在2023年8月就发布了稠密千亿模型,但在资本和用户端的存在感似乎并不强,甚至被外界认为“融资与发展有点慢”。
然而,在与面壁核心团队的交流中,我们听到了不同的声音。他们认为,过去的2023年不仅不慢,反而节奏“很快”。这一年,他们解决了诸多关键问题:成功探索了Scaling Law并建立了沙盒实验机制;从零到一训练了多模态大模型;将文本能力提升至GPT-3.5水平;跑通了模型训练迭代的全流程,明确了技术方向。
韩旭形容,面壁在技术上偏爱“打先手”,始终追求前沿引领。从清华NLP实验室时期开始,团队就探索过许多开创性工作:2021年研究大模型与系统优化结合、探索MoE架构;2022年基于CPM大模型探索如今火热的AI Agent,其代码生成助手ChatDev被吴恩达多次引用……
曾国洋表示,技术追赶不能急于求成,模型研发是场马拉松。达到GPT-4水平只是一个参考坐标,盲目跟随OpenAI未必是最佳路径。“面壁有自己的想法。要实现AGI,必须走出自己的路线。”
面向未来,面壁的布局更为宏大。一位核心成员透露,虽然Scaling Prediction目前很重要且有效,但团队不会将技术路线局限于此。即便按照OpenAI的规划,五年内要实现“超级智能”,仍有大量关键问题待解,Scaling Prediction只是其中之一。例如,当模型在某个任务上超越人类后,如何继续提升(即Super Alignment问题)?Transformer架构是否是终极答案?
韩旭给出了更具体的目标:今年第一个目标是将GPT-3.5级别的能力塞进PC等端侧设备;年底前拿出具备GPT-4能力的大模型。未来两年,让模型长出“眼睛”和“手臂”,形成智能体社群,这些都是正在发力的方向。
外界或许认为,面壁做MiniCPM这样的小模型是一种妥协。“但其实不是,”团队强调,“我们只是想通过这个‘小钢炮’证明,我们有能力用几倍的参数和成本,达到他人庞然大物的效果。”在资源有限的情况下,面壁凭借对Scaling Law的深刻理解和极致的高效追求,实现了“四两拨千斤”。
如果将资源拉到同一基准线,面壁反而是在大模型技术长跑中位置靠前的选手。AGI之路漫漫,面壁并不慢。相反,它的每一步都走得扎实,长跑的优势,才刚刚开始显现。