世界模型排行榜:人工智能新前沿 2026-06-22阅读 0热度 0 人工智能 # 当机器人学会“先想再做”,世界模型正在改变AI 墙上挂着一沓黑色垃圾袋,人形机器人缓缓靠近,伸出右手,从开口处扯下一个袋子,然后双手一撑,套进地上的垃圾桶里。套好还不算完,它还得仔细整理两下,让塑料袋边边角角都服帖——就跟人干的活儿没什么两样。 这样的场景,究竟是科幻照进现实还是工业样板间里的噱头?今年一场科技大会上,这一幕真实发生在《环球时报》记者的眼前。和我们过去在工厂里看到的机械臂完全不同,这台机器人面对的是极其“不听话”的柔性物体:塑料袋。风吹一下它就变形,抓取点飘忽不定;黑色在视觉上还特别难识别;从撕袋到套袋整个流程长、控制难度大。过去这些都是制约机器人的“卡点”,如今却正在被一一化解。 这背后的功臣,是“世界模型”。过去,研发机器人通常走VLA(视觉-语言-行为大模型)路线。现场技术人员透露,VLA也能完成套垃圾袋的任务,但在碰上极端情况时,机器人得重复抓取好几次才能成功。而世界模型在机器人动手之前,就会先在“脑子里”预演几种不同的抓法,并判断哪种能成。“世界模型的优势,是纠正错误的能力。”技术人员说。 基于世界模型,国内科研机构已经打造出一批清洁机器人,有望在酒店中落地应用。现场另一台人形机器人站在餐桌前,桌上散落着小龙虾壳、外卖盒等垃圾。它先将虾壳放进外卖盒,再把盒子扔进外卖袋,最后用抹布擦干净桌子——整个逻辑顺序和人类清扫如出一辙。更让人印象深刻的是,一台机器人左手拿起黑色锥形花盒,右手捏着透明装饰壳,轻轻套在花盒外面,随后从花瓶里精准捏起鲜花,稳稳插进花盒,然后递给站在一边的记者。捏花时它避开花瓣只掐花枝,识别透明包装壳也没有半点迟疑。 当然,世界模型还远谈不上万能。换被套这类任务,即便是成年人也颇费周折,对机器人来说更是巨大的挑战。“将被芯从被套里拿出来再换新的,需要两台机器人互相配合,但依然会出现很多意外情况。”技术人员说。 ## 从回答问题到规划行动 世界模型到底是什么?它和能聊天的DeepSeek、ChatGPT有什么本质区别? 新加坡南洋理工大学校长讲席教授、人工智能交叉研究院院长安波在大会间隙解释:DeepSeek这类本质上是“语言模型”,靠海量文字训练,核心能力是预测“下一个词该是什么”。你可以把它想象成一个读遍人类所有书籍的人,它知道世界如何被描述过,所以能跟你侃侃而谈、写文章、答问题。但它的认知是“二手”的,从文字里学来的。世界模型要做的是另一回事:让AI在脑子里建立一个关于世界如何运转的内部模拟器。就像我们人类,看到一个杯子被推到桌子边缘,不用算物理公式也能预判它会掉下去摔碎。闭上眼睛也能想象“如果我那样做,接下来会怎样”。 安波打了个比方:语言模型是“预测下一个词”,而世界模型是“预测下一个状态”——你做了某个动作之后,环境会怎么变。世界模型专为“会行动的智能体”服务,让它们能在环境里预判后果、做出决策。这对机器人、自动驾驶、具身智能来说特别关键。“ChatGPT像是读遍了所有游泳教材的人,而世界模型是为了让AI真正下水学会游泳而造的。”安波说。 目前,包括Meta前首席AI科学家杨立昆在内的多位大咖都在开发世界模型。分析人士指出,世界模型不再依赖概率推理,而是像人类大脑一样具备模拟和预判能力。去年11月,李飞飞表示,当前以大语言模型为代表的AI系统过于“纸上谈兵”,缺乏对现实空间、物理规律与因果关系的真正理解。具备空间智能的AI才能突破这一瓶颈,而要实现空间智能,就需要转向世界模型。 不过,各方对于世界模型的定义尚未达成统一共识。“大家现在是从不同的方法、角度去看世界模型,但相信最终会殊途同归。”智源研究院院长王仲远说。 ## 未来十年的关键拼图 想象几年后,你家有一个机器人助手。你说“把厨房收拾一下”,它不会傻乎乎地乱抓,而是先在“脑子里”模拟一遍:这个红酒杯易碎得轻拿,那盘没吃完的菜要放进冰箱,那把刀要避开……它能预判每个动作的后果才动手。这背后就是世界模型。家务机器人也因此成为世界模型的一大重要应用场景。不过王仲远也提醒:“世界模型本身处在早期,对具身智能产生实质性的影响和突破还有待观察。” 另一个重大应用领域是自动驾驶。现在的自动驾驶有时显得“愣”,因为它主要对当下情况作出反应。有了强大的世界模型,车能像老司机一样“预判”未发生之事的走向——这对安全至关重要。安波还举了一个更大胆的例子:数字孪生与城市治理。为一座工厂、一座城市建立可推演的数字分身,从而预测交通拥堵、能源消耗、突发事件的连锁反应,辅助决策。“当AI真正拥有了推演的能力,它就从一个回答问题的工具,变成了一个能帮我们推演世界、规划行动的伙伴。” “我们希望具身智能和人一样,在任何场景都是通用的,这就要求机器人在真实物理场景中能够看、听、接触。世界模型就是帮助机器人理解世界万物的规律。从这一目标看,世界模型的研发还处在初期阶段。”北京大学计算机学院教授黄铁军说。 客观来看,世界模型正处在从实验室概念快速走向“可用系统”的临界点上。安波举例说,今年2月,Waymo把谷歌DeepMind团队的Genie 3改造成了专门用于自动驾驶仿真的“Waymo世界模型”,用来生成现实中罕见的极端场景——突发龙卷风、路上遇到大象、金门大桥上下雪等来训练自动驾驶系统。“这说明世界模型已经开始在真实产业里干活了。” 当然,技术挑战仍然存在。面对长程、开放式的任务,世界模型还没有展现出稳定可靠的表现。如今生成的短时间画面很逼真,但只要让它连续推演得久一点,误差就会像滚雪球一样累积放大,导致画面变糊、物体凭空消失、出现违反物理规律的情况。“我们可以说造出了会‘做梦’的AI,但这个梦还不够稳定、不够符合物理现实,这正是当前研究的核心攻坚点。”安波说。 世界模型会成为AI的下一个前沿吗?安波认为,它确实是目前最被看好的方向之一。“它是通往AGI和具身智能的核心拼图。一个不理解物理世界的智能,很难说是完整的智能。”但他也指出,AI大模型的众多道路中究竟哪条更好仍有待观察,“大语言模型这条路还远没走到头,而世界模型还处在比较早期、技术上仍有很多硬骨头要啃的阶段。” 过去几年,AI的关键词是“会说话”——理解和生成语言。而如今越来越多的科学家正在让AI从“会说”走向“会想”和“会做”。“未来3到5年都会是世界模型持续演进和迭代的阶段。”王仲远判断。 深圳市人工智能与机器人研究院具身智能中心主任刘少山表示,世界模型试图对环境形成理解与预测,具身智能则强调在与环境互动中产生智能,因此世界模型可能是具身智能的下一个突破口。 “过去10年,我们教会了AI理解和生成信息;接下来10年的主题,很可能是教会它预测、规划和行动。而世界模型,恰恰是这个转向里最关键的一块拼图。”安波说。