智源AI创新1500天:坚持原始突破的深度解析与未来展望
2024年上半年,OpenAI继续定义行业标准。从世界模拟器Sora到首个实现多模态输入输出的GPT-4o,其迈向通用人工智能(AGI)的路径清晰且强势。面对技术代差,“追赶OpenAI”仍是全球AI竞赛中许多参与者的核心叙事。
然而,AI技术本身仍处于快速演进期,存在大量未解难题。技术前沿与研发范式并非单一。对于中国的人工智能研究而言,单纯跟随并非最优解,视野更需超越单一对标。
事实上,国内同样存在具备前瞻视野的开拓者。几乎与OpenAI同期洞察到大模型的历史性机遇,成立于2018年的北京智源人工智能研究院,便推出了中国首个大模型“悟道”,并持续扮演着中国AI原始创新的核心引擎。一位悟道项目的早期参与者曾指出,智源的核心优势在于其“战略眼光与决策魄力”,在早期阶段就敢于投入关键资源。
历经六年发展,智源在近期举办的第六届北京智源大会上,展示了全新的战略布局。区别于以往集中发布单一“悟道”模型,本次大会呈现的是一个覆盖多领域的“大模型矩阵”,涵盖大语言模型、多模态模型、具身智能大模型和生物计算大模型。这一转变源于今年2月新任院长王仲远带领团队,基于对AGI技术路径的研判,对未来三至五年战略进行的系统性重构。
“智源不会重复企业已在推进的工作,”王仲远明确表示,“我们的定位是原始创新,攻克业界的关键痛点或前沿技术,真正推动中国的技术突破。”
基于此,在具身智能、生物计算等前沿但尚未成熟的领域,智源选择提前布局,形成“人无我有”的差异化优势。例如,其推出的具身智能大模型,在机器人泛化操作与智能决策方面取得了世界级成果。在生物计算领域,则研发了全原子生物分子模型OpenComplex 2。
在竞争激烈的主流赛道,智源追求“人有我优”。当国内厂商竞逐万亿参数规模时,智源研发了全球首个低碳单体稠密万亿模型Tele-FLM-1T。在多模态领域,它并未跟随主流的DiT架构,而是押注自回归技术路线,推出了原生多模态世界模型Emu 3,并配套了轻量级的Bunny系列模型。
正如智谱AI CEO张鹏在大会上所言,智源已从最初的新型研发机构,成长为国内乃至国际AI领域的重要标杆。它不仅为中国AI界奠定了关键的研究基础,更培养了大量顶尖人才。如今的智源,依然坚守其创立初衷。“令人惊艳的创新不应只诞生于大洋彼岸。”王仲远的这句话,正是其当前行动的最佳诠释。
一、0-1的原始性创新
“大模型的许多核心思想与技术,正是从智源发展起来的。”百川智能创始人王小川的评价,点明了智源的核心价值。其非营利性科研机构的定位,使其兼具技术高度与智库角色,能够更专注地进行从0到1的原始创新。
解决万亿参数模型的收敛痛点
万亿参数模型,无疑是今年大模型厂商的竞争焦点。规模提升带来能力跃迁的同时,也带来了严峻的训练挑战:内存需求激增、通信开销巨大、性能瓶颈凸显,最核心的是——模型常常难以收敛。因此,市面上可见的万亿模型多为稀疏激活架构,单体稠密的万亿模型屈指可数。
当前的生态中,恰恰缺少一个稳定、可复现的单体稠密万亿模型“基座”。王仲远指出,智源要解决的正是这一痛点。当业界需要训练更大规模模型时,无需再从零开始攻克收敛难题,开源社区中已有一个高质量的初始化版本,后续只需基于更强的算力和数据进行迭代,避免重复“造轮子”。
面对巨大算力消耗这一核心挑战,智源联合中国电信人工智能研究院,利用模型生长与损失预测等关键技术,推出了全球首个低碳单体稠密万亿语言模型Tele-FLM-1T,旨在提升训练效率、降低能耗。该模型与百亿级(52B)、千亿级(102B)版本共同构成Tele-FLM系列。
其训练效率尤为突出:仅以业界常规方案9%的算力资源,基于112台A800服务器,在4个月内完成了三个模型总计2.3万亿token的训练,全程实现了零调整、零重试,在算力能效与模型稳定性方面表现卓越。
目前,Tele-FLM系列中的52B版本及其核心技术已全面开源,万亿版本也即将开放。这套生长策略未来还可能应用于异构芯片计算,并用于训练MoE模型,展现出更广泛的应用潜力。
不走DiT架构的多模态模型
如果说万亿参数是今年的热点之一,那么多模态无疑是最大的焦点。尤其在文生视频领域,以Sora为代表的DiT架构已成为主流路径。但智源选择了另一条技术路线。
“DiT当然能做出可用的产品级模型,”王仲远坦言,“但如果目标是构建真正服务于AGI的多模态大模型,我们认为自回归路线才是更优的技术选择。”
基于这一判断,智源研发了原生多模态世界模型Emu 3。该模型从设计之初就为统一的多模态生成与理解而生,采用自研的自回归技术路径,统一了视频、图像、文本的处理范式。“这条路确实更具挑战,但这恰恰适合智源这样的机构去探索。做原始创新要尊重科学规律,也接受失败的可能,即便失败也极具价值。”王仲远补充道。目前Emu 3仍在持续训练与安全评估中,未来将逐步开源。
同时,为满足端侧智能应用的需求,智源推出了轻量级图文多模态模型系列Bunny(3B/4B/8B)。该系列采用灵活架构,支持多种视觉编码器与语言基座模型。综合多个基准测试结果,Bunny-8B的多模态能力可达GPT-4o性能的87%。该系列模型已全面开源。
FlagOpen:打造大模型时代的“Linux”
智源的开源实践沿着两条主线推进:一是悟道系列模型本身的开源;二是将整个大模型技术体系开源,即建立FlagOpen开源开放体系。
随着计算需求指数级增长,FlagOpen需要应对大规模AI系统在异构计算、高速互联、弹性稳定等方面的挑战。为此,智源推出了面向大模型、支持多种异构算力的智算集群软件栈——FlagOS。
你可以将FlagOS理解为大模型时代的“操作系统”。它融合了智源在多元AI芯片关键技术上的长期积累,包括异构算力调度平台“九鼎”、并行训推框架FlagScale、高性能算子库FlagAttention/FlagGems等核心组件。向上,它支撑大模型的训练、推理与评测;向下,它管理底层的异构算力、高速网络与分布式存储。
目前,FlagOS已支持超过50个团队的大模型研发,管理超过4600张AI加速卡,稳定运行超20个月,服务可用性超过99.5%。它的出现,旨在为新一代智算中心建设提供关键支撑,提升集群效能,加速大模型产业发展。
二、“人无我有”的先手
“大模型技术迭代极快,其中确实存在一些商业公司缺乏动力或资源去推进的工作。”面壁智能CEO李大海的观察,揭示了前沿探索的另一面。在诸如具身智能、生物计算这些确定性较低但潜力巨大的“无人区”,并非所有玩家都具备入场条件。智源在此选择果断落子,抢占先机。
未来,作为数字世界基石的AI智能体,将向两个物理维度延伸:一是进入硬件设备,成为“具身智能”;二是进入微观生命世界,与生物分子结合,即“生物计算”。
具身智能大模型
智源研究院具身智能创新中心已在机器人泛化操作与智能决策方面取得多项世界级突破:
在通用抓取能力上,其研发的ASGrasp技术攻克了跨形状、跨材质的泛化难题,真机实验成功率突破95%,达到商业级水平。即使面对透明、高反光等复杂物体,机器人也能精准感知并成功抓取。
在分级决策系统上,研发了SAGE系统。它能结合三维视觉小模型的几何感知能力与通用图文大模型的物体操作知识,使机器人在任务失败后能够“重新思考”,尝试新的交互策略。
此外,还推出了Open6DOR系统,不仅能像谷歌RT系列一样根据指令放置物体,更能对物体的6自由度姿态进行精细化控制。在端到端技术路径上,则发布了全球首个基于视频的多模态具身导航大模型NaVid,可直接根据视频和语言指令输出控制信号。
面对新一轮的具身智能热潮,王仲远也提出了“冷思考”:需以客观理性的态度看待前沿技术,接受其存在发展周期,并保持持续投入,直至跨越周期。
生物计算大模型
在微观生命科学领域,智源将生成式AI应用于分子生物学,研发了全原子生物分子模型OpenComplex 2。该模型在预测蛋白质、RNA、DNA等复合物结构方面处于世界领先地位,连续两年在国际权威竞赛CAMEO中位居榜首,并获得了CASP 15的RNA自动化赛道冠军。
科研人员发现,OpenComplex 2不仅能够预测生物分子的稳定结构,还初步具备了预测分子多构象及折叠过程的能力。这为生命科学家探索蛋白质功能、研究疾病机理提供了强大工具。目前,智源已与合作伙伴在多项重要疾病的研究上展开合作。
更前沿的是,智源构建了全球首个实时孪生心脏计算模型,实现了高精度仿真下生物时间与仿真时间比小于1的突破。这是虚拟心脏研究的开端。基于“物理-数据”双驱动模型,未来有望根据患者的临床数据,构建出个性化的“数字孪生心脏”,用于药物筛选、治疗方案优化与术前规划,具有巨大的临床转化潜力。
三、AI研究的新范式
“如果三年前问我AGI还需多久,我可能会说50年。但目睹大模型这几年的进展,我认为这个时间可以减半,或许20年左右就能实现。”中国工程院院士、清华大学智能产业研究院院长张亚勤在智源大会上的这番分享,折射出业界对AGI加速到来的普遍预期。
他进一步勾勒出技术蓝图:信息智能(语言、图像、视频的理解与生成)可能在0-5年内通过新图灵测试;物理智能(在物理环境中的理解与操作)可能在0-10年内实现;生物智能(与生命科学、制药等结合)则可能在0-20年内取得突破。
AGI的临近,也在倒逼AI研究范式的变革。单纯依赖Scaling Law(缩放定律)恐怕无法抵达终点。从技术底层看,行业正从依赖手工标注的深度学习,转向通过自然语言重建视觉内容的高级模型。Sora团队负责人与学界的交流,也暗示着这种技术路线的变迁。
技术快速流变的同时,其带来的失控与安全风险也必须被高度重视。零一万物创始人李开复博士指出,如果过度依赖奖励模型(Reward Model),完全让AI自我寻优,失控风险可能会增加。中长期看,可能需要“以子之矛,攻子之盾”——用更先进的AI技术来解决AI自身带来的挑战。
尽管前路充满可能性与挑战,但回望2020年智源启动“悟道”大模型研发的时刻,它无疑是亚洲地区最早全力投入大模型的机构之一。“最初成立智源、启动悟道项目的决策非常难得和领先,”王仲远总结道,“未来AI研究的视野必将更加宽广,而智源将继续作为促进中国AI生态繁荣的关键平台。”
通往AGI的道路依然漫长。王仲远预判,GPT-4之后的突破难度将呈指数级增加,对算力、核心算法的要求会更高。那将不再是一个简单的“追赶”过程,而是一场真正的“突破”之战。
