世界模型排行榜：人工智能新前沿

2026-06-22阅读 0热度 0

人工智能

# 当机器人学会“先想再做”，世界模型正在改变AI 墙上挂着一沓黑色垃圾袋，人形机器人缓缓靠近，伸出右手，从开口处扯下一个袋子，然后双手一撑，套进地上的垃圾桶里。套好还不算完，它还得仔细整理两下，让塑料袋边边角角都服帖——就跟人干的活儿没什么两样。这样的场景，究竟是科幻照进现实还是工业样板间里的噱头？今年一场科技大会上，这一幕真实发生在《环球时报》记者的眼前。和我们过去在工厂里看到的机械臂完全不同，这台机器人面对的是极其“不听话”的柔性物体：塑料袋。风吹一下它就变形，抓取点飘忽不定；黑色在视觉上还特别难识别；从撕袋到套袋整个流程长、控制难度大。过去这些都是制约机器人的“卡点”，如今却正在被一一化解。这背后的功臣，是“世界模型”。过去，研发机器人通常走VLA（视觉-语言-行为大模型）路线。现场技术人员透露，VLA也能完成套垃圾袋的任务，但在碰上极端情况时，机器人得重复抓取好几次才能成功。而世界模型在机器人动手之前，就会先在“脑子里”预演几种不同的抓法，并判断哪种能成。“世界模型的优势，是纠正错误的能力。”技术人员说。基于世界模型，国内科研机构已经打造出一批清洁机器人，有望在酒店中落地应用。现场另一台人形机器人站在餐桌前，桌上散落着小龙虾壳、外卖盒等垃圾。它先将虾壳放进外卖盒，再把盒子扔进外卖袋，最后用抹布擦干净桌子——整个逻辑顺序和人类清扫如出一辙。更让人印象深刻的是，一台机器人左手拿起黑色锥形花盒，右手捏着透明装饰壳，轻轻套在花盒外面，随后从花瓶里精准捏起鲜花，稳稳插进花盒，然后递给站在一边的记者。捏花时它避开花瓣只掐花枝，识别透明包装壳也没有半点迟疑。当然，世界模型还远谈不上万能。换被套这类任务，即便是成年人也颇费周折，对机器人来说更是巨大的挑战。“将被芯从被套里拿出来再换新的，需要两台机器人互相配合，但依然会出现很多意外情况。”技术人员说。 ## 从回答问题到规划行动世界模型到底是什么？它和能聊天的DeepSeek、ChatGPT有什么本质区别？新加坡南洋理工大学校长讲席教授、人工智能交叉研究院院长安波在大会间隙解释：DeepSeek这类本质上是“语言模型”，靠海量文字训练，核心能力是预测“下一个词该是什么”。你可以把它想象成一个读遍人类所有书籍的人，它知道世界如何被描述过，所以能跟你侃侃而谈、写文章、答问题。但它的认知是“二手”的，从文字里学来的。世界模型要做的是另一回事：让AI在脑子里建立一个关于世界如何运转的内部模拟器。就像我们人类，看到一个杯子被推到桌子边缘，不用算物理公式也能预判它会掉下去摔碎。闭上眼睛也能想象“如果我那样做，接下来会怎样”。安波打了个比方：语言模型是“预测下一个词”，而世界模型是“预测下一个状态”——你做了某个动作之后，环境会怎么变。世界模型专为“会行动的智能体”服务，让它们能在环境里预判后果、做出决策。这对机器人、自动驾驶、具身智能来说特别关键。“ChatGPT像是读遍了所有游泳教材的人，而世界模型是为了让AI真正下水学会游泳而造的。”安波说。目前，包括Meta前首席AI科学家杨立昆在内的多位大咖都在开发世界模型。分析人士指出，世界模型不再依赖概率推理，而是像人类大脑一样具备模拟和预判能力。去年11月，李飞飞表示，当前以大语言模型为代表的AI系统过于“纸上谈兵”，缺乏对现实空间、物理规律与因果关系的真正理解。具备空间智能的AI才能突破这一瓶颈，而要实现空间智能，就需要转向世界模型。不过，各方对于世界模型的定义尚未达成统一共识。“大家现在是从不同的方法、角度去看世界模型，但相信最终会殊途同归。”智源研究院院长王仲远说。 ## 未来十年的关键拼图想象几年后，你家有一个机器人助手。你说“把厨房收拾一下”，它不会傻乎乎地乱抓，而是先在“脑子里”模拟一遍：这个红酒杯易碎得轻拿，那盘没吃完的菜要放进冰箱，那把刀要避开……它能预判每个动作的后果才动手。这背后就是世界模型。家务机器人也因此成为世界模型的一大重要应用场景。不过王仲远也提醒：“世界模型本身处在早期，对具身智能产生实质性的影响和突破还有待观察。” 另一个重大应用领域是自动驾驶。现在的自动驾驶有时显得“愣”，因为它主要对当下情况作出反应。有了强大的世界模型，车能像老司机一样“预判”未发生之事的走向——这对安全至关重要。安波还举了一个更大胆的例子：数字孪生与城市治理。为一座工厂、一座城市建立可推演的数字分身，从而预测交通拥堵、能源消耗、突发事件的连锁反应，辅助决策。“当AI真正拥有了推演的能力，它就从一个回答问题的工具，变成了一个能帮我们推演世界、规划行动的伙伴。” “我们希望具身智能和人一样，在任何场景都是通用的，这就要求机器人在真实物理场景中能够看、听、接触。世界模型就是帮助机器人理解世界万物的规律。从这一目标看，世界模型的研发还处在初期阶段。”北京大学计算机学院教授黄铁军说。客观来看，世界模型正处在从实验室概念快速走向“可用系统”的临界点上。安波举例说，今年2月，Waymo把谷歌DeepMind团队的Genie 3改造成了专门用于自动驾驶仿真的“Waymo世界模型”，用来生成现实中罕见的极端场景——突发龙卷风、路上遇到大象、金门大桥上下雪等来训练自动驾驶系统。“这说明世界模型已经开始在真实产业里干活了。” 当然，技术挑战仍然存在。面对长程、开放式的任务，世界模型还没有展现出稳定可靠的表现。如今生成的短时间画面很逼真，但只要让它连续推演得久一点，误差就会像滚雪球一样累积放大，导致画面变糊、物体凭空消失、出现违反物理规律的情况。“我们可以说造出了会‘做梦’的AI，但这个梦还不够稳定、不够符合物理现实，这正是当前研究的核心攻坚点。”安波说。世界模型会成为AI的下一个前沿吗？安波认为，它确实是目前最被看好的方向之一。“它是通往AGI和具身智能的核心拼图。一个不理解物理世界的智能，很难说是完整的智能。”但他也指出，AI大模型的众多道路中究竟哪条更好仍有待观察，“大语言模型这条路还远没走到头，而世界模型还处在比较早期、技术上仍有很多硬骨头要啃的阶段。” 过去几年，AI的关键词是“会说话”——理解和生成语言。而如今越来越多的科学家正在让AI从“会说”走向“会想”和“会做”。“未来3到5年都会是世界模型持续演进和迭代的阶段。”王仲远判断。深圳市人工智能与机器人研究院具身智能中心主任刘少山表示，世界模型试图对环境形成理解与预测，具身智能则强调在与环境互动中产生智能，因此世界模型可能是具身智能的下一个突破口。 “过去10年，我们教会了AI理解和生成信息；接下来10年的主题，很可能是教会它预测、规划和行动。而世界模型，恰恰是这个转向里最关键的一块拼图。”安波说。

世界模型排行榜：人工智能新前沿

相关阅读

最新教程

最新资讯