具身智能顶流论道非共识:数据、世界模型新洞察
“如果给你的企业100亿元来推进具身智能的发展,这笔钱你会怎么花?”
在11月20日举行的2025智源具身Open Day圆桌论坛上,主持人抛出了这样一个开放性问题。
面对这个问题的嘉宾,来自8家国内具身行业的顶流企业机构:
智源研究院院长王仲远
智元机器人合伙人、首席科学家罗剑岚
北京大学助理教授、银河通用创始人王鹤
清华大学交叉信息学院助理教授、星海图联合创始人赵行
加速进化创始人兼CEO程昊
自变量创始人兼CEO王潜
招商局集团AI首席科学家张家兴
中国科学院大学教授赵冬斌
“我觉得100亿元不太够。”加速进化创始人兼CEO程昊笑着回应道,观众席也发出默契的笑声,“如果只有100亿,应该会找更多朋友一起推动具身行业。比如把钱投到智源研究院。”
智元机器人合伙人罗剑岚倾向于用这笔钱解决当前的数据瓶颈:“我会去构建世界上最大的自我进化、自我闭环的数据飞轮。100亿元可以说很多,也可以说不多,但是第一个用100亿去做这个事情的人和机构还不存在。”
除了“怎么花钱”,8位嘉宾还讨论了世界模型等业内关注的话题,也对当下主流采用的VLA范式提出了反思和改进思路。
为增强观点间的碰撞,本次圆桌论坛上设置了一个有趣的“举牌表态”环节:嘉宾需要通过举起1、2、3号牌,表达同意、中立或不同意。
从举牌结果来看,即便在国内顶尖从业者之间,非共识依然存在。分歧最为明显的,是“数据稀缺”问题的解法。
星海图联合创始人赵行和招商局集团AI首席科学家张家兴,主张真实物理世界数据的重要性;银河通用创始人王鹤则强调,在真实数据难以采集的地方,合成数据将发挥重要作用。
自变量创始人兼CEO王潜认为可以使用融合的数据,但要根据不同的任务选取合适的数据来源。
如何选取和组合数据才能实现量变到质变的飞跃?不同的回答折射出每位创业者心目中的“第一性原理”与战略重心。
△2025智源具身Open Day“具身模型会客厅”圆桌论坛,图源:智源研究院
世界模型:是必选项还是加分项?
主持人第一个问题就直击要害:世界模型会是具身智能的关键技术吗?
王鹤第一个举起了“同意”牌,但他随即补充道:“这全看你对世界模型怎么定义。”经过了Sora等一系列视频生成模型的市场教育,世界模型在强化学习里的原始定义已经越来越模糊。
他点出了一个核心矛盾:现在很多人想让机器人通过观看人类行为的视频来学习,但机器人的身体结构与人类差异巨大——无论是轮式底盘还是双臂,其灵巧度和活动空间都与人不同。所以,即便模型能生成逼真的人类动作,这类数据对机器人的实际帮助也相当有限。
不过,放眼未来,预测能力确实是具身智能不可或缺的核心能力。机器人必须能像人一样,根据未来的目标,推理出当前应执行的动作,进行动作规划。王鹤的结论很干脆:世界模型所代表的预测能力是核心,但它的训练数据必须来自机器人自身。
王仲远也投了同意票,但他的视角略有不同:“世界模型对具身智能肯定有用,但它并不一定是必须的基座。”他进一步解释,人类理解的世界模型不仅仅是视频生成——生成下一帧画面只是表象,真正的价值在于能够基于前续时空状态,精准预测下一个时空状态。这就像刚才他想回答问题时,需要基于主持人的提问、甚至王鹤的回答,来组织自己的答案,并做出拿起话筒的决策。
VLA范式:终极答案还是过渡产物?
在通用大模型领域,Transformer这样的统一架构催生了ChatGPT的爆发。但具身智能领域至今没有出现“一个大模型打天下”的局面,分层的具身大模型、端到端的VLA、世界模型……各种路线百花齐放。那么,具身智能模型最终会收敛到某个统一架构吗?
张家兴举了中立牌,但他的观点相当鲜明:“具身智能真想走向明天,模型层面其实并不能沿着LLM到VLM的老路走下去。具身智能需要一个完全属于自己的架构。”
他打了个很形象的比方:就像人的智能,是先有了动作,然后才有了视觉,最后才有了语言。VLA结构在视觉和动作之间夹了一个语言,这其实并不符合人类操作的本质。比如开车的时候,可以一边聊天、一边听歌、一边看路——语言并没有参与开车这件事本身。这说明视觉和动作是打通的,语言并不一定需要参与其中。
他透露了一个值得期待的动向:“现在硅谷的一些头部团队,正在做新的多模态大模型架构。在这个架构下,原来Language First的状态,将有可能变成Vision First甚至是Vision Action First。”
赵行对此深表赞同,他甚至给出了更具体的设想:“我们需要一个平行于大语言模型的基础模型,它更大概率是一个Large Action Model。这个模型依赖于视觉——因为视觉是世界上最通用的感知传感器信息——在此之上,我们再加入语言。”这和生物进化的规律出奇一致:先有能运动的动物,然后它们有了视觉,最后才出现了人类这种高智慧生物。
他还强调了一个关键差异:“具身模型和语言模型最不一样的地方,在于它必须是一个闭环模型。语言模型是一问一答的开环系统——你告诉它问题,它给出答案,中间可能会有思维链,答对了就结束。但具身智能不是这样——它在做一个动作之后,立刻得到世界反馈,然后马上调整下一个动作。”
罗剑岚同样同意统一的方向,但他认为最终解法不是靠单一的模型:“最终会被一个一体的系统解决,这个系统包括VLA、世界模型、强化学习。”他特意解释,虽然同意张家兴所说的“现在的VLA可能不是最终范式”,但未来仍有Vision、Language、Action——趋势是对的,只是不会长成现在的样子。
系统工程还需要世界模型提供反思、预测、在潜在空间上做想象的能力,再加上强化学习,配合真实世界里的数据飞轮,才能实现具身智能的自我进化和持续学习。
王仲远从研究院的视角补充道:“智源研究院相信,从终极状态来看,一定要有相对统一架构的模型来解决具身智能里的各种问题。但所需的数据量非常大,可能不是三年、五年就能完全出现。”更好的具身大模型,可能要等大量机器人在真实场景中解决具体问题、累积出“具身智能互联网”级别的数据之后,才会出现。
王鹤则从架构角度给出乐观判断:Transformer作为一个跨模态的Attention机制,其实很通用——吞吐文本、视频、声音都可以。今天具身的问题在于,人有眼、耳、口、鼻、舌这么多“觉”,虽然从Attention的角度把这些“觉”Token化以后都能放到Transformer里,但在输出上似乎不太对。如果能把这些慢慢解决,架构上未来可以有一个很统一的范式。
但他话锋一转,把焦点拉回到当下最大的挑战——数据:“我非常认同仲远博士讲的,无论是视频生成模型还是对话模型,本质都是海量的互联网大数据。但我们要研究Action First的模型,问题在于现在地球上的人形机器人居民太少。这样一个数量,不足以撑起探索出一个Action First的架构和模型。”
他的建议很务实:“短期内我们要靠合成数据来摸索这个方向,它比用真实数据更快。先让具身智能的能力点增长,然后人口才能增长,才能孕育出真正强大的大模型。”
程昊从运控的视角出发,给出了一个非常直观的想象:“希望能有一个具身模型,能基于需求、基于环境,时刻输出未来100帧的动作——我们可以脑补一下,这可能是一个机器人运动的动画。这个模型一旦跑通,整个具身智能就会非常好落地。”
他举了做饭的例子:这非常难,但可以用分层的方法让机器人先落地——先拿快递、搬箱子这些简单的事情。正如王鹤所说,只要一落地,机器人公民一定会增多,因为落地就能创造价值,大家就有动力、有钱、有意愿去造更多机器人,采集大量数据,反哺整个具身智能大模型的开发。
王潜则提醒大家注意一个细节:“问题中‘Transformer’这个说法稍微有点误导。今天即使在语言模型里,也不一定都用Transformer的架构。”
不过,他认同会有一整套如同GPT那样的基础模型。他从语言模型身上学到两件特别重要的事:第一,数据很重要但并非越多越好,高质量、高效率的数据才是决定性因素;第二,必须做物理世界的基础模型——它平行于或独立于虚拟世界,因为物理世界中摩擦、接触、碰撞等精细过程,很难用语言或传统合成数据准确描绘。
在他的实践里,世界模型和VLA这些概念并不互斥:“同一个模型既可以输出动作,也可以输出视频——我们把这整体看作物理世界的基础模型。”他甚至预言:“5至10年后,来自具身的多模态模型有可能成为主导。我们用物理世界中收集到的数据做出来的多模态模型,可能会反过头来吞并今天以虚拟世界的数据为主做出来的多模态模型。”
这其实也符合人类认知:我们一生接触到的多模态数据远少于互联网规模,却能形成很强的世界理解。其中一个关键原因,就是具身智能可以在动作中完成交互感知和主动感知,从而在时间和因果的维度上抓住物理世界的规律。
△现场嘉宾举牌情况展示了对于具身智能问题的非共识,图源:智源研究院
数据瓶颈:真实、合成还是融合?
话题自然转向了数据——几乎每位嘉宾都提及了数据的重要性。主持人顺势追问:面对数据瓶颈,各家采用了什么策略?
张家兴的答案很清晰:第一,相信真实物理世界采集的数据;第二,在数字金字塔中,接下来更偏重于以人自身作为本体去采集的数据——这是成本最低、量最能上得去的数据,主要用于预训练。
赵行也是以真实数据为基础,但有三个切入点:先从真实机器人数采切入,保证真实性、质量;然后关注多样性,更多去真实场景采集;第三步才是扩大采集规模、降低采集成本。
罗剑岚同样坚持真实数据,并强调两个要点:一是在真实场景而非数据采集厂里采集真实数据;二是未来整个数据飞轮的构建,要靠机器人自主产生数据——把大量机器人部署在真实场景里,让它们与环境交互,产生广泛、多元化的数据。
王仲远则坚持从视频数据中做基座模型学习:“视频数据可以海量获得,同时又模拟真实世界。通过真机采集的数据做微调,再通过强化学习做反馈,不断提升模型能力。”他打了一个有趣的比方——这跟小朋友刷手机认识世界是一个原理:先通过视频学习这个世界的规律,再通过真实的交互体验来提升技能。
王鹤可能是现场最强调仿真的人:“并不是说我故意要去仿真真实世界的数据。而是我们发现很多底层的控制都是通过大量的强化学习习得的,而在真实世界做强化学习相当困难。”他举了两个例子:所有足式行走、跳舞、复杂身体的控制,全部是通过仿真器习得的;而最近与清华大学合作的灵巧手项目,所有手内操作的工作也都是用仿真器而非遥操作——因为遥控操作时,你根本不知道手指碰到没碰到、受多少力。
他的核心观点是:“模拟器给我们一个好的Base Controller,让我们能在真实世界里把数据飞轮转起来。这就是合成数据的使命。”
程昊现在确实用仿真数据多一些,因为速度更快。“但用仿真数据训的目标,是为了让具身智能快速先落地,落地之后能获得很多真实数据。可能获得真实数据之后,整体能力提升,又会发现有些情况下真实数据成本太高,后面可能又开始大量用仿真数据——这是一个螺旋上升的过程。”
至于视频数据——毫无疑问最多,只是现在训出来的效果没那么好。但他认为这个问题从历史来看,肯定有解法。“所以终局的解法,很有可能还是融合的数据,哪个阶段哪个数据好用,就先用哪个。”
王潜的公司则是什么数据都用,但各有侧重:互联网数据用来做预训练、学常识;仿真数据做导航、规划,但不做接触性的精细操作;操作类的任务以物理世界真实数据为主。
赵冬斌则从自动驾驶视角给出了一个有趣的参照:“自动驾驶的落地路径是——把车卖给用户,司机每天在路上开车,数据自然收回。什么时候机器人能卖到或租赁到真实场景,边工作边收数据,数据量自然会快速增长。”
第一性原理:他们相信什么?
主持人请每位嘉宾用一句话概括做决策的第一性原理。
张家兴相信去年图灵奖获得者的说法:让机器自己去发现,让机器自己去探索。
赵行提到星海图刚创立时的一句话:“In Scaling Law We Trust”——相信数据的规模化和反向驱动,能推动模型进化和智能实现。
罗剑岚的态度很明确:“要做难而正确的事情。风物长宜放眼量——很多事情短期看是负担,长期看会产生巨大价值。”
王鹤的目标很务实:“银河通用致力于让数据飞轮转起来。即使我们现在做的不是别人认为最炫酷的东西。”
程昊的关注点很清晰:“在决策时会关注它到底能不能落地,是不是对落地有帮助。”
王潜的标准是:“能不能从一个比较长的周期上,给客户和消费者创造真实的价值。”
赵冬斌则从研究角度指出:“智能驾驶和具身智能会存在交互的支持。”
百亿资金的抉择:花在哪儿?
最后,主持人抛出了那个百亿资金的问题。
王潜的答案很简单:“首先把市场上能吸纳的好人才都吸纳过来,其次是算力和数据源。”
程昊笑着再次强调:“100亿不太够。如果只有100亿,会找更多朋友一起推动,比如投资到智源研究院,吸引全球研究人才心无旁骛地做长期技术突破。”
王鹤则看得更深:“100亿其实不重要,重要的是你怎么用你的事业和坚定的进展吸引到人才加入。我们不希望大家为了钱每天睁开眼睛,而是为了一个未来人与机器人共生的世界。”
罗剑岚的目标极具野心:“我会去构建世界上最大的自我进化、自我闭环的数据飞轮。100亿可以说很多,也可以说不多,但第一个用100亿去做这个事情的人和机构,还不存在。”
赵行的理想同样宏大:“我会去构建一个最大的数据引擎,能把物理世界的信息全都数字化下来。”
张家兴则希望能够设计属于具身智能的基础模型,然后做大规模预训练——真正能把规模Scale Up上去。
一个下午的讨论下来,8位来自不同背景、拥有不同战略重心的嘉宾,各自刻画了自己心中具身智能的未来路线图。有分歧,有共识,但所有人都不约而同地指向同一个方向——一个数据驱动的、能够自我进化的、真正理解物理世界的智能系统。真正的分水岭,或许就在于:谁能在数据、架构和落地之间,找到那个最关键的先手棋。

