世界模型数据采集关键：黄铁军2026智源大会深度解析

2026-06-15阅读 0热度 0

世界模型

2026智源大会期间，黄铁军身边始终簇拥着追问者——演讲台上他是主讲人，散场后便成为被截住答疑的专家。他的闭幕演讲主题定为《智能之路——吾道一以贯之》，这句话几乎成了整场会议的共识密码：从悟道到悟界，从大语言模型到具身智能，智源究竟有没有一条清晰的主线？答案明确。智源研究院的路径始终沿着一条技术主线延伸——从大语言模型，到多模态大模型，再到世界模型。

大会体验区里，安贞医院与智源合作的AI心脏智能体演示台前始终排着长队；乒乓球机器人的挥拍声穿透人群；一位参会者佩戴智能眼镜穿梭，镜片无声记录着他的第一视角画面。这些场景恰好对应黄铁军反复强调的判断：AI正从数字空间迈向物理空间，而人类日常生活的全过程，本身就是最天然的数据源。

当大量企业用VLA（视觉语言动作模型）快速落地产品时，智源为何坚持世界模型才是终极方向？黄铁军的回答带着研究者特有的执着：企业用成熟技术解决当下问题，这没问题；但研究机构追求的，是一个能在任意场景下做出基础判断的“通用大脑”——一个对世界万事万物拥有“主观内部模型”的机器人。

大会期间，黄铁军与媒体进行了一场对话，话题围绕世界模型展开。如果把这家新型研发机构的观点继续延伸，实际上是在回应一个悬在所有AI企业头顶的问题：急着把AI送上货架的人不少，谁来负责思考那些尚未被命名的未来？

问：目前许多具身智能企业都在用VLA或VLM快速落地，智源提出世界模型才是通往具身智能核心方向，依据是什么？

答：两者并不矛盾。企业用成熟技术解决明确问题，在制造或搬运这类特定场景下完成任务，完全可行。但从研究机构的角度看，我们希望具身智能实现通用化——像人类一样在任何场景下解决问题。机器人要观察、要施力，就必须对世界建立自己的模型，这个模型就是世界模型。就像每个人大脑里都存在一个“小宇宙”，对世界有一套内在模型，做事时才有基本的判断依据。所以面向机器人，我们需要构建一个对世界万事万物规律有充分掌握的世界模型。

问：世界模型未来的数据来源，哪些比较重要？

答：数据来源可以广义地理解为“生物与环境交互过程中获得的信息”。在计算机互联网时期，我们把各种传感信号转化成数据，但这种数据是对环境的不完整表达，过于静态。对于世界模型来说，离线静态数据集远远不够，需要更多在线实时交互的数据。比如踢球、弹琴、游泳——这些都是与世界的互动，需要实时感知环境并调整内部模型。因此在世界模型和具身阶段，实时性和交互性数据的占比会越来越高。

问：这会导致数据成本发生什么变化？

答：数据成本取决于采集模式。专门建数据工厂、用机器人或人类控制机器人采集数据，成本不合理。更好的方式是边工作边采集——工人戴上设备正常工作，数据同步完成。或者通过耳机、智能眼镜这类可穿戴设备，在提供服务的同时，以极低成本甚至零成本让系统获得你的第一视角数据。自动驾驶的逻辑也一样，充分利用现有车辆上的传感器，未来穿戴式传感器会越来越多。

问：短期内世界模型在哪些场景更容易落地？

答：严格来说，纯数字模型——比如游戏、视频生成——不是世界模型，因为它们不需要物理正确性。真正的世界模型必须有多传感器输入，具备视觉、听觉、触觉等，在尽可能多的物理输入下，对未来一段时间做出精准推测。这与自动驾驶类似：观察当前状态，推想未来十几秒会发生什么。

数字模型没有物理代价限制，发展会非常快，但产品的推广速度其实不如我预期。它们完全可以被更好地利用，创造出更多产品形态。而具身传感器受物理限制，进展可能慢一些，但这条路必须走扎实。

问：很多人把通用人工智能（AGI）当作终极目标，您认为世界模型与AGI的关系是什么？

答：大家对AGI的定义不尽相同，但无论是现实意义上的通用人工智能系统，还是终极意义上的AGI，世界模型都是其中最重要的组成部分——就像大脑是身体最关键的部分。未来AGI若超越人类，一定是因为它对世界的认知超过了我们，它的世界模型比人类更强大。当然它也需要身体，在物理世界以更灵巧、更灵敏的方式完成任务。

世界模型数据采集关键：黄铁军2026智源大会深度解析

相关阅读

最新教程

最新资讯