人工智能写诗却拧不开瓶盖:虚拟与物理能力对比
我们惊叹于AI妙笔生花、代码无瑕的才华,然后转头就看到机器人把咖啡洒满桌布,被一根充电线逼到原地死机——那一刻瞬间清醒:原来,这不过是硅基生命一次“降维打击”未遂。
有没有觉得,有些智能产品其实挺傻的?
比如扫地机器人,每天勤勤恳恳在家转圈,但想让它卡住,只需要一根充电线。然后它就开始原地疯狂打转,直到没电。
这不,矛盾就来了:AI在虚拟世界里能写诗、能写代码,看起来聪明绝顶;可一旦想让它进入现实,比如帮我去厨房倒杯水,它就立马失灵了。说到底,它根本不理解物理世界。
一、AI活在真空里
大模型本质上只干了一件事:预测下一个词。你说上半句,它能接下半句,语言天赋确实惊人。但不幸的是,它所有的聪明都建立在文字这个虚拟符号上,却从未触碰过真实世界的一粒灰尘。
图灵奖得主杨立昆曾直言,只会文字接龙的AI,没有未来。他提出的方向是让AI建立一种内部世界模型——能够感知环境、理解状态、预测后果,并根据目标规划行动。这区别于当前AI的“即问即答”,而是能在某种程度上模拟“如果我这么做,会发生什么”。
我们来把这种区别具体化:一瓶未开封的矿泉水,和一杯盛满热咖啡的杯子,同时被放在桌子边缘。一个婴儿可能不懂其中的区别,但任何一个成年人都会本能地紧张——大脑瞬间就脑补出了两种后果:水瓶掉下去是“咚”一声闷响,水不会溢出来;咖啡掉下去则是“啪”一声炸开,液体四溅。这种预判,来自我们从小被重力、惯性、液体流动性反复“教育”出来的物理常识。
但AI没有这种常识。它能写出流体力学的博士论文,却判断不出一杯水被打翻后的运动轨迹。
今年5月,一篇发表在arXiv上的综述论文指出:世界模型的核心作用是让智能体能够在“脑海”中预测自身行为的后果,而无需在真实环境中执行。而目前,AI对物理世界理解的这种缺失,导致任何试图进入现实世界的机器人,都像个盲人。
二、指向同一个方向
今年以来,科技巨头们的步调似乎越来越一致了:AI必须从数字世界转向物理世界。
6月初的台北GTC大会上,英伟达发布了Cosmos 3——全球首款完全开源的全模态物理AI世界模型。它能以领先的物理精度原生理解和生成文本、图像、视频、环境声音和动作。黄仁勋当时说,物理AI的ChatGPT时刻已经到来,Cosmos 3将物理AI的训练和评估周期从数月缩短到数天。就像前文说的,它让机器人在动手之前可以先思考,在虚拟环境中模拟行动后果,选出最优方案再执行。
谷歌DeepMind也在做同样的事。他们开发的Genie 3世界模型,已经能以每秒24帧的速度生成持久的3D交互式环境。今年5月,DeepMind把谷歌街景数据接入了Genie,用户输入一个真实地点,就能生成可交互的沉浸式场景。这相当于给AI提供了一个虚拟训练场,在模拟环境中反复试错,不用在现实世界中承担后果。
三、底层问题的争论
正当产业忙着落地时,一场关于“什么叫世界模型”的争论也随之而来。
今年6月初,斯坦福AI科学家李飞飞专门写了一篇长文回应这个问题。她的结论很直接:世界模型是现在AI领域最重要、也最被滥用的术语之一。她做了一个功能分类:渲染器、模拟器、规划器。一个能生成火焰视频的模型、一个能模拟燃烧过程的物理引擎、一个能规划行动路径的决策系统,现在都被叫作世界模型——但它们实际在做三件完全不同的事。其中,模拟器受到的关注最少,却最为关键,它是连接“看起来像”和“物理上对”之间的那座桥梁。
杨立昆更是认为大语言模型这条路走错了,基于JEPA架构的世界模型才是通往AGI的唯一可行路径。两位AI领域顶级学者不约而同地押注世界模型,这足以说明:世界模型正在成为AI下一个十年的核心战场。
四、道阻且长
英伟达测算,物理AI对应制造与物流产业的重塑空间约50万亿美元。但机遇越大,挑战也越艰巨。真实物理世界的数据极度稀缺,国内具身数据不过百万小时量级,和大语言模型动辄万亿级别token数据的训练量比起来,差距悬殊。合成数据可以填补部分空白,却无法完全还原真实世界的复杂和不确定性。
李飞飞也承认,从原始像素数据端到端稳定训练世界模型,至今仍是巨大的技术挑战。杨立昆同样如此——他的JEPA架构虽然理论优美,但工程落地的路还很长。
不过,整体方向是清晰的。AI正在经历一场蜕变,就像刚学走路的孩子,笨拙也固执,但终究会理解并触碰这个真实的世界。