人工智能写诗却拧不开瓶盖：虚拟与物理能力对比

2026-06-22阅读 0热度 0

矿泉水

我们惊叹于AI妙笔生花、代码无瑕的才华，然后转头就看到机器人把咖啡洒满桌布，被一根充电线逼到原地死机——那一刻瞬间清醒：原来，这不过是硅基生命一次“降维打击”未遂。

有没有觉得，有些智能产品其实挺傻的？

比如扫地机器人，每天勤勤恳恳在家转圈，但想让它卡住，只需要一根充电线。然后它就开始原地疯狂打转，直到没电。

这不，矛盾就来了：AI在虚拟世界里能写诗、能写代码，看起来聪明绝顶；可一旦想让它进入现实，比如帮我去厨房倒杯水，它就立马失灵了。说到底，它根本不理解物理世界。

一、AI活在真空里

大模型本质上只干了一件事：预测下一个词。你说上半句，它能接下半句，语言天赋确实惊人。但不幸的是，它所有的聪明都建立在文字这个虚拟符号上，却从未触碰过真实世界的一粒灰尘。

图灵奖得主杨立昆曾直言，只会文字接龙的AI，没有未来。他提出的方向是让AI建立一种内部世界模型——能够感知环境、理解状态、预测后果，并根据目标规划行动。这区别于当前AI的“即问即答”，而是能在某种程度上模拟“如果我这么做，会发生什么”。

我们来把这种区别具体化：一瓶未开封的矿泉水，和一杯盛满热咖啡的杯子，同时被放在桌子边缘。一个婴儿可能不懂其中的区别，但任何一个成年人都会本能地紧张——大脑瞬间就脑补出了两种后果：水瓶掉下去是“咚”一声闷响，水不会溢出来；咖啡掉下去则是“啪”一声炸开，液体四溅。这种预判，来自我们从小被重力、惯性、液体流动性反复“教育”出来的物理常识。

但AI没有这种常识。它能写出流体力学的博士论文，却判断不出一杯水被打翻后的运动轨迹。

今年5月，一篇发表在arXiv上的综述论文指出：世界模型的核心作用是让智能体能够在“脑海”中预测自身行为的后果，而无需在真实环境中执行。而目前，AI对物理世界理解的这种缺失，导致任何试图进入现实世界的机器人，都像个盲人。

二、指向同一个方向

今年以来，科技巨头们的步调似乎越来越一致了：AI必须从数字世界转向物理世界。

6月初的台北GTC大会上，英伟达发布了Cosmos 3——全球首款完全开源的全模态物理AI世界模型。它能以领先的物理精度原生理解和生成文本、图像、视频、环境声音和动作。黄仁勋当时说，物理AI的ChatGPT时刻已经到来，Cosmos 3将物理AI的训练和评估周期从数月缩短到数天。就像前文说的，它让机器人在动手之前可以先思考，在虚拟环境中模拟行动后果，选出最优方案再执行。

谷歌DeepMind也在做同样的事。他们开发的Genie 3世界模型，已经能以每秒24帧的速度生成持久的3D交互式环境。今年5月，DeepMind把谷歌街景数据接入了Genie，用户输入一个真实地点，就能生成可交互的沉浸式场景。这相当于给AI提供了一个虚拟训练场，在模拟环境中反复试错，不用在现实世界中承担后果。

三、底层问题的争论

正当产业忙着落地时，一场关于“什么叫世界模型”的争论也随之而来。

今年6月初，斯坦福AI科学家李飞飞专门写了一篇长文回应这个问题。她的结论很直接：世界模型是现在AI领域最重要、也最被滥用的术语之一。她做了一个功能分类：渲染器、模拟器、规划器。一个能生成火焰视频的模型、一个能模拟燃烧过程的物理引擎、一个能规划行动路径的决策系统，现在都被叫作世界模型——但它们实际在做三件完全不同的事。其中，模拟器受到的关注最少，却最为关键，它是连接“看起来像”和“物理上对”之间的那座桥梁。

杨立昆更是认为大语言模型这条路走错了，基于JEPA架构的世界模型才是通往AGI的唯一可行路径。两位AI领域顶级学者不约而同地押注世界模型，这足以说明：世界模型正在成为AI下一个十年的核心战场。

四、道阻且长

英伟达测算，物理AI对应制造与物流产业的重塑空间约50万亿美元。但机遇越大，挑战也越艰巨。真实物理世界的数据极度稀缺，国内具身数据不过百万小时量级，和大语言模型动辄万亿级别token数据的训练量比起来，差距悬殊。合成数据可以填补部分空白，却无法完全还原真实世界的复杂和不确定性。

李飞飞也承认，从原始像素数据端到端稳定训练世界模型，至今仍是巨大的技术挑战。杨立昆同样如此——他的JEPA架构虽然理论优美，但工程落地的路还很长。

不过，整体方向是清晰的。AI正在经历一场蜕变，就像刚学走路的孩子，笨拙也固执，但终究会理解并触碰这个真实的世界。

人工智能写诗却拧不开瓶盖：虚拟与物理能力对比

一、AI活在真空里

二、指向同一个方向

三、底层问题的争论

四、道阻且长

相关阅读

最新教程

最新资讯