世界模型数据采集关键:黄铁军2026智源大会深度解析

2026-06-15阅读 0热度 0
世界模型

2026智源大会期间,黄铁军身边始终簇拥着追问者——演讲台上他是主讲人,散场后便成为被截住答疑的专家。他的闭幕演讲主题定为《智能之路——吾道一以贯之》,这句话几乎成了整场会议的共识密码:从悟道到悟界,从大语言模型到具身智能,智源究竟有没有一条清晰的主线?答案明确。智源研究院的路径始终沿着一条技术主线延伸——从大语言模型,到多模态大模型,再到世界模型。

大会体验区里,安贞医院与智源合作的AI心脏智能体演示台前始终排着长队;乒乓球机器人的挥拍声穿透人群;一位参会者佩戴智能眼镜穿梭,镜片无声记录着他的第一视角画面。这些场景恰好对应黄铁军反复强调的判断:AI正从数字空间迈向物理空间,而人类日常生活的全过程,本身就是最天然的数据源。

当大量企业用VLA(视觉语言动作模型)快速落地产品时,智源为何坚持世界模型才是终极方向?黄铁军的回答带着研究者特有的执着:企业用成熟技术解决当下问题,这没问题;但研究机构追求的,是一个能在任意场景下做出基础判断的“通用大脑”——一个对世界万事万物拥有“主观内部模型”的机器人。

大会期间,黄铁军与媒体进行了一场对话,话题围绕世界模型展开。如果把这家新型研发机构的观点继续延伸,实际上是在回应一个悬在所有AI企业头顶的问题:急着把AI送上货架的人不少,谁来负责思考那些尚未被命名的未来?


问:目前许多具身智能企业都在用VLA或VLM快速落地,智源提出世界模型才是通往具身智能核心方向,依据是什么?

答:两者并不矛盾。企业用成熟技术解决明确问题,在制造或搬运这类特定场景下完成任务,完全可行。但从研究机构的角度看,我们希望具身智能实现通用化——像人类一样在任何场景下解决问题。机器人要观察、要施力,就必须对世界建立自己的模型,这个模型就是世界模型。就像每个人大脑里都存在一个“小宇宙”,对世界有一套内在模型,做事时才有基本的判断依据。所以面向机器人,我们需要构建一个对世界万事万物规律有充分掌握的世界模型。

问:世界模型未来的数据来源,哪些比较重要?

答:数据来源可以广义地理解为“生物与环境交互过程中获得的信息”。在计算机互联网时期,我们把各种传感信号转化成数据,但这种数据是对环境的不完整表达,过于静态。对于世界模型来说,离线静态数据集远远不够,需要更多在线实时交互的数据。比如踢球、弹琴、游泳——这些都是与世界的互动,需要实时感知环境并调整内部模型。因此在世界模型和具身阶段,实时性和交互性数据的占比会越来越高。

问:这会导致数据成本发生什么变化?

答:数据成本取决于采集模式。专门建数据工厂、用机器人或人类控制机器人采集数据,成本不合理。更好的方式是边工作边采集——工人戴上设备正常工作,数据同步完成。或者通过耳机、智能眼镜这类可穿戴设备,在提供服务的同时,以极低成本甚至零成本让系统获得你的第一视角数据。自动驾驶的逻辑也一样,充分利用现有车辆上的传感器,未来穿戴式传感器会越来越多。

问:短期内世界模型在哪些场景更容易落地?

答:严格来说,纯数字模型——比如游戏、视频生成——不是世界模型,因为它们不需要物理正确性。真正的世界模型必须有多传感器输入,具备视觉、听觉、触觉等,在尽可能多的物理输入下,对未来一段时间做出精准推测。这与自动驾驶类似:观察当前状态,推想未来十几秒会发生什么。

数字模型没有物理代价限制,发展会非常快,但产品的推广速度其实不如我预期。它们完全可以被更好地利用,创造出更多产品形态。而具身传感器受物理限制,进展可能慢一些,但这条路必须走扎实。

问:很多人把通用人工智能(AGI)当作终极目标,您认为世界模型与AGI的关系是什么?

答:大家对AGI的定义不尽相同,但无论是现实意义上的通用人工智能系统,还是终极意义上的AGI,世界模型都是其中最重要的组成部分——就像大脑是身体最关键的部分。未来AGI若超越人类,一定是因为它对世界的认知超过了我们,它的世界模型比人类更强大。当然它也需要身体,在物理世界以更灵巧、更灵敏的方式完成任务。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策