具身智能三层技术路线无捷径:星海图创始人高继扬解析
新一代具身基础模型G0.5与首款双足人形机器人Kengo发布仅半个月,星海图便启动了新一轮动作。
这家2023年成立的具身智能企业,今年初完成股份制改造后,正处在密集发力的关键窗口。
这一次,星海图直接亮出了自己的完整「生态版图」。
6月16日,在其首届全球开发者大会(Galaxea WDC 2026)上,逾百位全球开发者、顶级学术专家、产业链上下游伙伴,以及海外机器人企业代表悉数到场。
当天会场的座次安排暗藏深意:
第一排嘉宾席C位,上午留给了相关政府部门领导,下午换成了清华大学电子工程系教授汪玉(下午首场演讲嘉宾)。
星海图创始人兼CEO高继扬坐在他们的右手边。
而他右侧的嘉宾位置始终未变——今日资本创始人徐新一直听完该公司联合创始人、CTO赵行的分享才离场。
这种「学术+资本+产业链」的高密度同框,传递出一个清晰信号:
2026年,似乎正是具身智能的转折点。
从大会现场观察,三个维度值得深度拆解:数据、模型、生态。
每一条都足以揭示星海图当前的战略重心。
投入2亿采集真机数据,值得吗?
在星海图的技术框架中,「数据」被反复强调为核心。
会上,星海图联合北京亦庄共同发起新数据公司「亦数智能」,并提出了一个极具野心的目标:100万小时超高质量真实数据计划。
100万小时意味着什么?它标志着具身智能终于拥有了「互联网级别」的数据资源。
天眼查数据显示,亦数智能(北京)科技有限公司中,星海图作为第二大股东认缴出资额2500万元,持股比例25%。
亦数智能牵头,原力灵机、蚂蚁数科、百度智能云、猎聘、海天瑞声等15家公司,成为首批共建企业。
我们是国内最早、也是最坚决押注真实数据的公司。模型、数据和本体必须在同一套体系内闭环运行。
高继扬的潜台词很直白:在具身智能领域,数据不是辅助工具,而是底层生产资料。
这也符合行业共识。大模型之所以有效,根本在于它「吞噬」了海量数据。
同理,机器学习的底层逻辑之一,就是高度依赖数据中台的质量。
但具身智能的数据并非现成可得的。
一位星海图工程师对媒体表示,真机数据收集难度极高,短期内要提升数据量,还需引入UMI、Egocentric数据等。
顺便一提,许多公司已经将UMI+Ego组合使用。这类数据被认为是当前行业内较常见的「低成本替代方案」。
但在星海图内部判断中,这并非终点。
他们更倾向于将真机数据作为核心资产进行长期积累。
同时,逐步引入互联网行为数据、人类动作数据以及物品交互数据,通过数据工程手段放大规模。
对于仿真数据,星海图团队态度相对谨慎。
我们公司不太相信仿真数据、合成数据,因为它们与真机数据差异显著,难以提炼出有效的算法设计。
这种判断并非空穴来风。海外具身智能公司Genesis AI也未能成功将合成数据用于预训练。
在数据组织方式上,有行业人士打了个比方:如果说大模型的数据生产是被动收割,那么具身智能更像丰田式的精细经营,需要对每条数据进行控制与验证。
随之而来的问题——成本。
在会后群访中,高继扬直言不应只盯着数据单项成本,而应关注智能总成本。
采集数据是为了实现智能,必须回归到我们的根本目的。
智能总成本分为三块:数据、算力、研发团队。
我们先剔除研发团队工程师成本。实践中发现数据和算力成本比例大约是1:10。
也就是1块钱的数据成本,至少需要10块钱的算力成本,才能把模型训练到位。
在他看来,如果数据本身无效,后续生成的模型也必然无用。
高继扬将真实世界数据分成两类:
- Human centric data(人类行为数据)
- Robot centric data(机器人遥操作数据)
在成本层面,这两类数据的价格区间已经非常明确。
Human centric data大约在每小时50~100元人民币之间,受地区和采集条件影响有所波动。
Robot centric data由于涉及遥操作、人工控制以及设备折旧,成本显著更高,大约在每小时250元左右。
市场上,一些团队的报价甚至达到300~350元,但通常包含10%~20%的毛利空间,更多取决于运营效率。
如果放到规模化视角来看,逻辑会更直观。
100万小时的数据采集,对应的是1亿至2亿元人民币的成本。
而在高继扬的对比视角里,这个数字并不夸张,甚至是「必须发生的投入」。
如今大模型训练,每年算力支出是数亿美元级别。相比之下,这一两亿人民币的数据成本是必须要花的,而且从智能产出的角度看,其实非常划算。
G0.5部署到双足人形,仍需时间
硬件与数据,最终都要服务于模型。
本次大会上,星海图新一代VLA基础模型G0.5正式发布,并宣布开源。
在下午场演讲中,赵行重点介绍了星海图的三层技术路线:
- 本能智能:让机器人协调全身运动
- 作业智能:让机器人执行具体任务
- 进化智能:让AI重新定义机器人形态
G0.5处于第二层,但它完成了一项关键突破:将VLA统一到一个自回归生成框架中。
视觉、语言、思维链与动作不再分阶段处理,而是在同一数据流中连续生成,实现「边理解边执行」的闭环推理。
会后有媒体问赵行一个现实问题:G0.5何时能部署到双足人形机器人Kengo上?
他的回答比较直接:至少要等到今年年底。
原因也很现实。这里面仍有不少工程问题尚未解决,比如小型人形机器人的端侧算力仍然不足。
这直接指向一个硬约束——NVIDIA Jetson Thor。
Thor被定义为「机器人大脑」,用于运行VLA、世界模型和多传感器融合任务,但问题是功耗高、体积大,小型人形结构空间不够。
有算法工程师告诉媒体,如果未来有厂商能针对具身智能推出Thor的轻量化版本,可以直接使用。
这一现实也解释了一个行业现象:为什么许多具身智能公司在早期验证或生产环节,会更倾向于轮式机器人。
相比双足形态,轮式平台在算力承载、供电能力和结构空间上都更加宽松。
高继扬在群访时也明确,G0.5的整体架构更适配双臂智能或轮式双臂这类形态。
现阶段会更多落地在R1 Lite、R1 Pro,包括新发布的单臂A1Z等平台上。
而Kengo这样的双足人形产品,目前仍处于本能智能阶段。
在他看来,以上提到的「三层技术路线」是必经阶段,没有捷径可走。
作业智能是当前的主流路线,本质上仍以模仿学习为主,强化学习更多起辅助作用。
而在本能智能阶段,则是强化学习为主,模仿学习作为补充。
这一趋势在过去几年已经逐渐清晰,包括英伟达的Sonic,以及基于Mimic类方法的跳舞控制系统,本质上都是在强化学习框架中引入模仿信号进行修正。
从长周期看,高继扬认为本能智能与作业智能这两条路径,最终大概率会走向融合。
等到那个阶段,才可能真正把G0.5级别的能力迁移到Kengo这样的双足系统上。
值得一提的是,今年年初,星海图发布了第一版世界模型Fast-WAM。
在后续研究中,赵行团队发现一个关键问题:市面上大多数基于世界模型的机器人策略,是在一个视频生成模型上再叠加策略模块,导致整个推理链路变得冗长。
他们做了结构性简化:直接去掉推理阶段的视频预测过程,仅保留训练阶段学到的世界表征能力。
结果显示,模型性能没有明显下降,但推理速度提升4倍以上。
同时,Fast-WAM可以在消费级显卡上稳定运行5亿~10亿参数规模模型,为后续工程部署提供了现实基础。
纷纷开始拼生态
如果只看技术发布,本届WDC并不会显得特别激进。
G0.5开源、Fast-WAM、Kengo首秀,基本都在预期之内。
一个明显的变化是,星海图开始转向「生态化」叙事。
除了亦数智能,本次大会上,星海图还联合凯辉基金发布了创业孵化项目「星途计划」。
据CFO罗天奇介绍,他们重点关注三个方向:数据驱动智能、应用场景突破、下一代核心技术。
尤其是第三个最为关键,因为它对应的是未来Physical AI Agent在真实世界中的扩散路径。
过去一年,星海图已陆续投资近10家企业,未来3到5年计划投资30~50家。
投资不只是为了财务回报,而是要联手伙伴共同构建产业拼图。
星海图过往投资支持的公司,已有不少成为其上下游合作伙伴。
「产业成功的时候,不是某一家企业的胜利,而是一批企业的共同繁荣。」高继扬说。
这句话也暗含深意:没有任何一家公司能够独自定义具身智能。行业已经进入平台期前夜。
确实,具身智能行业链条极长,连接AI、机器人、本体、传感器、数据、制造、场景和服务,不是一家公司靠单点技术就能完成的。
当前,不少具身公司都在积极构建生态。
区别于智元自研全品类整机、「航母式孵化」应用场景,星海图认为自己走的是「生态平权」路线。
开放技术、工具、接口,降低入行门槛,所有开发者、企业都能平等使用核心能力,打造开放共享生态。
One more thing
会上,高继扬主动谈起了星海图的商业模式,将沿着三段式路径演进:
从整机销售,到方案订阅,再到物理世界Token销售。
在这一框架下,第一阶段的整机销售更多承担场景验证功能。
相较于直接追求规模化增长,他认为,当系统能力能够被持续调用、任务能力可以实现模块化订阅时,智能驱动的商业化才会逐渐显现出更大的可能性。
在这个逻辑下,2024年10月,星海图首批Galaxea R1机器人本体,迎来了第一个客户——斯坦福李飞飞实验室。
△李飞飞基于R1发布全身移动操作机器人套件方案
高继扬分享了合作背后的小故事。
他与赵行都曾在美国读博,与李飞飞团队在学术圈有交集。
「我们想做具身智能这么一款产品,跟对方一碰,正好对路。要不怎么说researcher更懂researcher呢。」
不过,高继扬当时接触的并不只有李飞飞团队,也聊过不少潜在客户。
但最终真正接住这件事的,还得是飞飞老师。












