小模型崛起:2024年AI竞争新焦点与核心应用解析
过去一段时间,大模型行业经历了一场风向的微妙转变。
八月初,腾讯官宣“混元系列小模型”落地,不久后,阿里也跟进了两款通义Qwen3-4B模型。
起初,这看起来像是国内大厂之间例行的技术展示。但几天后,剧情有了新的发展——大洋彼岸的OpenAI也加入了战局,破天荒地开源了gpt-oss-20B等两款模型,同样将焦点放在了小参数规模上。
头部玩家们如此整齐划一的举动,释放出一个清晰的信号:在追逐大规模集群训练与部署的主流叙事之外,小模型正重新回到舞台的中央。
小模型重回大众视野
“小模型”并非一个新概念。但这次回归的,并非停留在学术论文里的构想,而是真正瞄准终端落地、具备实用价值的小模型。
回顾2020年GPT-3发布之前,整个行业的研究重心确实集中在参数规模相对较小的模型上。然而,那时的许多成果更多是实验室里的“盆景”,距离大规模商业化应用尚有距离。
GPT-3及其带来的ChatGPT浪潮,彻底改变了游戏规则。它成功地从学术界破圈,成为了人工智能领域一个史诗级的商业化产品。资本的涌入,将AI的发展从“大炼模型”的时代,快速推进到了“炼大模型”的时代。
从2021年到2024年,行业的技术路线一度可以概括为五个字:大力出奇迹。堆数据、拼算力、通过提示工程和后期训练来挖掘大模型潜力,成为了毋庸置疑的主流路径。小模型的概念,则逐渐被边缘化。
转折的伏笔早已埋下。去年底,OpenAI前首席科学家Ilya Sutskever曾发出预警:“数据压榨到头了。”行业开始普遍意识到,高质量数据的增长并非无限,而算力需求却永无止境。
于是,进入今年,大模型领域的玩家出现了显著分化。一部分头部企业继续追随OpenAI的脚步,深耕千亿乃至万亿参数的基础模型;另一部分资源有限的玩家,则开始将重心转向应用层的开发与落地。
然而,在这两条主流路径之外,还有一小批持有“非共识”观点的探索者,将目光坚定地投向了小模型。不过,如今他们重新拾起的小模型,与ChatGPT出现前那些停留在论文里的版本已截然不同。它们是专为终端设备设计、能够真正部署运行的模型,也因此获得了更精准的命名:端侧小模型,或称端侧智能。
崭露头角的端侧小模型公司们
今年以来,端侧小模型已不再只是概念,开始在实际场景中崭露头角。
此前的世界人工智能大会(WAIC)上,西门子MindSphere的展台吸引了众多专业观众。大家围观的,是一个体积小于50MB、部署在终端的小模型。它能够实时预测现场三台冲压设备的潜在故障,并及时发出警报。
在传统的生产车间里,冲压机床往往要到“累到趴窝”才会被工人察觉,随之而来的便是整条生产线的停摆检修,造成巨大的人力与财力损失。因此,故障预警功能至关重要。面对这类高度具体、对实时性要求极高的场景,大模型即便算力再强、结构再精妙,也难有用武之地。而一个精准、轻量的端侧小模型,却能轻松胜任。
这仅仅是终端小模型应用场景的冰山一角。在这条看似狭窄的赛道上,一些初创公司已经跑在了前面,例如北京的AI公司面壁智能。
之所以关注到这家企业,源于其今年五月完成的一轮融资。在DeepSeek引发广泛关注之后,国内大模型领域的融资环境堪称严峻。一方面,行业共识认为大模型技术已进入平台期;另一方面,有珠玉在前,说服投资人为何要投资另一家大模型公司变得异常困难。
但面壁智能却成功获得了持续的资金支持。与多位业内人士交流后,一个关键原因浮出水面:它很早就锚定并All in了“小模型”这条差异化路径。
据悉,就在近期,面壁智能全体员工收到了一封特别的内部信。借公司成立三周年之际,决策层向团队深入阐释了一个核心问题:为何公司从大模型切入,却最终将全部筹码压在了端侧小模型上?
这封邮件透露的底层思考,即便从外部视角审视,也能为理解一家AI初创公司的战略抉择提供宝贵参考。
根据信中的描述,面壁智能在创立初期(2022年)是百分百坚定于大模型方向的,其成立时间甚至早于DeepSeek。公司创始团队源自清华大学自然语言处理实验室,在创业前曾主力参与北京智源研究院的“悟道”大模型项目。
按理说,面壁智能赶上了早期红利。但分析来看,国内AI风险投资存在一定的路径依赖,更青睐那些“有成功经验的连续创业者”。这使得技术背景扎实但创业经验相对早期的面壁团队,并未立即成为资本的宠儿,其早期天地更多是靠自身技术实力拼搏出来的。
在2022至2023年间,面壁智能持续深耕大模型,当时的愿景是打造“平民化”的大模型,一度被认为是国内与DeepSeek愿景最相似的公司之一。团队也取得了切实的成绩,成功训练出多个百亿、千亿参数规模的模型。
真正的战略转折点发生在2023年。随着Meta的Llama模型开源,大量资本涌入,一年内国内大模型创业公司激增至十几家。面壁智能敏锐地意识到,千亿级大模型的训练烧钱速度过快,且商业化落地路径漫长。于是,公司果断调整航向,决定转向训练参数规模更小、算力需求更低,但追求更强性能的端侧模型。
转型之初,挑战重重。一方面,端侧智能在当时仍属前沿探索,方向并不明朗;另一方面,市场上也不乏干扰。例如,后来DeepSeek V3等模型展现出的“以少胜多”的能力,也曾让团队内部产生过思考:如果坚持原有路线,是否也有机会在大模型领域攀上新的高峰?(后续的市场发展证明,面壁的果断转型是明智的)
但彼时,公司资源已全面投向端侧小模型,失去了回头验证“低成本训练强大模型”其他可能性的机会。好在,专注于小模型并非歧路。面壁团队很快在这一赛道找到了感觉,并形成了自己独特的技术思路。
想成为端侧小模型的“开拓者”,并不容易
从时间线上看,面壁智能探索小模型的步伐,比文章开头提到的腾讯“混元”和阿里“通义Qwen3”更早。在端侧智能的布局上,它几乎领先了行业近一年半的时间。
这段提前量,让面壁智能积累了一系列成果。
首先是模型层面。面壁将其端侧模型系列命名为“小钢炮”MiniCPM,并已完成了多次迭代。最新开源的MiniCPM-V4.0,其中8B版本能在极低的稀疏度下运行,支持端侧长文本处理和复杂推理;而0.5B版本则能适配非常丰富的终端场景,甚至在手机端也能持续、稳定运行且控制发热。结合此前在视觉与实时语音对话方面的优化,面壁的端侧模型已能在iPad上实现流畅的多模态直播交互。这意味着其应用场景得到了极大拓展,从麦当劳的点餐机器人、政务服务中心的服务机器人,到儿童陪伴教育玩具,都能胜任。
其次是学术与开源影响力。上个月,国际顶级期刊《自然·通讯》正式收录了面壁智能关于MiniCPM-V模型的研究成果。该系列中包含一个在OpenCompass评测中超越特定版本GPT-4V的80亿参数模型。在开源社区,MiniCPM系列是2024年Hugging Face平台上全球下载量最大、最受欢迎的中国大模型,截至目前全平台累计下载量已突破1000万次,体现了其技术影响力和社区认可度。
当然,比起技术和学术成果,更直观的检验标准还是现实世界的落地应用。社交媒体上常有一个疑问:为何都说大模型能力超群,却鲜少看到令人惊艳的落地产品?
一个核心答案在于部署条件。大模型的强大能力,依赖于云端高性能服务器的支撑。而我们日常生活中高频使用的手机、平板、汽车等设备,都属于算力有限的“边端算力场景”。这恰恰是众多小模型厂商的主战场。
以面壁智能为例,与需要调用云端超强算力的大模型不同,其“小钢炮”系列模型能在消费级显卡上流畅运行。这意味着,手机、个人电脑、汽车、机器人、工厂环境,乃至一些对数据安全有高要求的涉密政府部门,都可以进行本地化部署。“不仅大幅降低了模型部署的硬件门槛,更极大地丰富了应用场景的可能性。”这在面壁智能的内部信中也得到了印证。
信中提到,在汽车场景,面壁智能围绕智能座舱,发布了以MiniCPM模型为核心的纯端侧汽车助手CPMGO。据了解,这是业界首个完全运行在车端、不依赖云端的智能座舱解决方案。