2025世界模型突破方向权威预测:六大前沿猜想深度解析
“世界模型”无疑是当前AI领域最受瞩目的前沿方向,但整个领域仍处于早期探索阶段,远未形成统一的技术共识。
在第八届GAIR全球人工智能与机器人大会上,一场聚焦“世界模型”的圆桌讨论汇集了来自浙江大学、腾讯、中山大学、香港中文大学(深圳)和西湖大学的五位青年学者。在清华大学赵昊教授的主持下,这场对话围绕世界模型的核心定义、数字人重建的技术瓶颈以及未来技术范式的演进路径,展开了深入而富有洞见的探讨。
关于世界模型,哪些技术突破值得期待?
讨论开始,主持人赵昊提出了一个技术性很强的问题:在反光等复杂场景下,传统方法与VGGT等新方案均面临挑战,而“Match Anything”这类前馈式匹配方法展现出潜力。未来,这类方法会取代现有方案,还是走向融合?
浙江大学研究员彭思达指出,答案取决于具体场景。在观测视角足够稠密时,现有方法已能保证精度;但在稀疏视角下,则必须依赖VGGT等技术,只是其精度仍有提升空间。他补充了一个常被忽视的视角:技术突破不仅依赖算法,也受硬件发展驱动。例如,高精度IMU、激光雷达等传感器已能与视觉信息深度融合,不必局限于纯视觉方案。
话题转向运动估计领域,赵昊观察到近期arXiv上的新工作效果已超越了SpatialTrackerV2。他询问这个领域明年是否会被“彻底解决”。
彭思达明确表示否定,他认为这个领域才刚刚开始。但他特别提到了谷歌DeepMind的D4RT工作,认为这是一项范式级的突破。该研究摒弃了基于特征相关性迭代优化的传统范式,将整段视频编码为一组全局Token,从而可以直接查询时空中任意点的信息。他预测这将开启一个技术蓬勃发展期,可能到2027年才会逐渐收敛。
基于此,赵昊做出了一个预测:基于查询的几何基础模型将成为2026年的一个重要主题。不仅是D4RT,像修宇亮老师的Human3R也是查询式的。他个人认为2026年几何基础模型将走向基于查询的范式。当被问及自己的“赌注”时,彭思达将目光投向了自监督学习。他期待面向空间智能的自监督学习能有重大突破,并希望拥有庞大资源的研究机构能在此做出关键贡献。
随后,腾讯ARC Lab高级研究员胡文博分享了他的展望。他回顾了团队此前将3D信息注入扩散模型的工作,但坦言未来可能不会继续深入这条路线,因为他认为其性能上限可能受限于重建技术本身的瑕疵。因此,他们希望探索一条全新的、上限更高的路线来融入3D信息,最终目标依然是构建世界模型。他个人坚定地看好世界模型方向,并特别提到今年8月Google DeepMind发布的Genie 3,认为其震撼程度堪比大语言模型领域的GPT-3。
对此,彭思达提出了一个尖锐的问题:当前视频世界模型学到的特征,似乎对空间感知和理解帮助有限,这与“建模三维空间”的初衷是否矛盾?
胡文博首先对这个前提提出了疑问。他指出,有证据表明从图像或视频扩散模型出发,能用少量数据微调出几何估计模型,这可能说明它是有用的。但他更想探讨的是世界模型的定义。他更认同一种观点:世界模型可以是一个让个人体验未知世界、他人世界甚至虚构世界的工具。人类主要通过视觉感知世界,如果能在视频模态上实现优秀的探索与交互,并且其物理规则符合现实(或可自定义),本身就极具价值。至于它对空间智能是否有直接帮助,他暂时持保留态度。
这个想法引发了关于应用的讨论。彭思达联想到“魔法相册”——让静态照片里的内容动起来,且每次动得都不一样,例如记录孩子的成长。胡文博则描绘了更吸引他的场景:打开任意一张照片,就能“进入”那个场景进行探索、与物体交互,并且更改能被永久保存,下次可以继续,这更像一个“活的世界”。
中山大学王广润博士接续了世界模型应用的讨论。他认为,世界模型的一个核心应用在于具身智能和视觉-语言-动作模型领域。本质上,输入图像,输出未来的动作序列,这些动作就包含了3D坐标信息。因此,世界模型可能是一个可泛化的、快速进行3D重建与预测的引擎。他对2026年的期待,是能看到Physical Intelligence的“π 1”版本发布,并希望其中包含更多对世界模型的建模。
赵昊随之提出了一个关键问题:为什么当前的VLA模型还没有接入深度图或点云预测?王广润指出,关键瓶颈在于数据。要训练这类模型,需要大量特定的3D标注数据,而这类数据的采集极其困难。
“可交互性是世界模型的关键”与“数字人如何提供情绪价值”
香港中文大学(深圳)的韩晓光教授坦诚地分享了他的思考。他笑言,自己之所以强调3D的重要性,部分原因也是因为缺乏足够资源去做视频模型。他看到许多做3D的研究者转向了视频模型,因此更想鼓励大家继续深耕3D领域。关于2026年的方向,他坚信可交互性是世界模型的关键,并更倾向于在仿真环境中实现高度拟真的交互,例如生成一把真正可用的剪刀,或一个可以被拆卸操作的物体。
西湖大学修宇亮助理教授则提出了一个长期被忽略但至关重要的维度:情绪价值。他指出,无论是做具身智能还是3D,大家的落脚点常常是“机器人能干活”。但人与人之间的交往,“快乐”与“有用”同等重要,而快乐往往来源于对方提供的情绪价值。
如果2026年有什么新方向,他特别想探索如何让数字人提供情绪价值。这涉及音容笑貌、举手投足的高度协调。他以做饭为例,快乐不仅在于炒菜本身,更在于一家人享用时的愉悦反馈。他认为,物理层面的操作问题会随着技术进步逐步解决,之后呢?温饱之后,人自然会有更高的精神追求。落实到数字人,需要将语音、语调、表情、动作等多模态统一协调,形成一种能打动人心的整体感觉。目前的技术即使领先,仍可能陷入“恐怖谷”,无法有效传递情绪。因此,可以先在数字世界中探索如何让数字人的多种感官传递“活灵活现”,最终目标是引发情感共鸣。
他进一步以大模型为例,提到了一个近期流行的“智障研究生”求助Prompt。他指出,理想的交互不应只是机械地解答问题,而应首先给予情绪支持(如“你已经考上研究生了,你的智力已经是极优异的那一撮了”),再解决问题。这种更宜人的沟通方式,是人机交互中至关重要的一环。
赵昊随即提出了学术界面临的核心难题:如何量化评估情绪价值?没有基准测试,研究就难以推进。他提议,明年是否可以像MMMU定义多模态理解基准那样,着手定义一些情绪价值的评估基准?
修宇亮承认这非常困难,因为情绪非常个人化,但并非不可能。例如脱口秀可以用“罐头笑声”标记笑点。可以尝试定义何时引发了何种情绪,尽管建立一个普适且有说服力的基准极具挑战,可能需要新的技术手段。
另一个问题是:为什么3D数字人的发展似乎比通用3D物体慢?是数据问题吗?
修宇亮指出,数据不足是一方面,但更根本的是“恐怖谷”效应。通用3D物体做到90%逼真度可能就足够了,甚至某些操作无需纹理信息。但数字人领域,“保真度”是毋庸置疑的追求,且容错率极低——做不到99分或100分,就是0分。人脸或动作稍有僵硬或失真,就会令人不适。这也是许多公司转向卡通风格的原因:预期管理更容易,技术要求也相对较低。拟真数字人需要极高的技术门槛和资金投入,短期内难以突破。
韩晓光补充道,除了真实感,动态驱动也是巨大挑战。一个静态的3D数字人用处有限,必须让它动起来,并且动得自然,这目前非常困难。
视频生成模型是否面临范式天花板?情绪价值的本质是语言,还是外观?
彭思达向修宇亮提出了两个关键问题。第一,情绪价值的本质,是研究语言更重要,还是外观更重要?如果要排序,哪个优先级更高?
修宇亮认为这不是非此即彼的问题,但如果必须排序,语言(包括语调)本身可能更重要,其次是表情和体态。即使遮住脸或绑住手,仅通过语言也能传达大量情绪,例如深夜电台主播的声音就极具感染力。
第二个问题更技术性:当前视频生成模型是否也面临范式天花板?就像图像生成领域,Stable Diffusion曾如火如荼,但如今被Nano Banana等基于语言-图像统一建模的新范式超越。目前似乎还没有论文很好地将视频与文本/语言在高层语义上进行统一建模。而要让你设想的数字人有“灵魂”,必然需要这种深度融合。
修宇亮同意现在的视频模型还远未达到“形神兼备”。这种灵魂感往往体现在高频细节上,比如微表情、语调的微妙变化,这些细节在像素层面难以捕捉,在损失函数中也作用甚微。他以电影中经典的微表情镜头为例,说明建模这种极致的逼真度本身就是“最后一公里”的巨大挑战。
韩晓光对情绪价值提供了另一个视角:有时,不提供具体形象可能更好。越具体、越真实,有时反而会限制想象力。一个未知形象但声音温柔的角色,可能给人更多想象空间和情绪价值。
修宇亮进一步阐释,情绪价值常常来自“反差感”和“预期违背”,而这与当前大模型“准确预测下一个词”的核心训练目标恰恰相反。脱口秀的逻辑不是预测最可能的词,而是在知道最可能是什么之后,给出一个最不可能但又合理的输出,从而制造幽默。如何让以“捕捉人类直觉”闻名的大模型,去学习生成这种“反直觉但细想想又很合理”的内容,是一个有趣的课题。他甚至认为,幽默本身就是人类智能的一种体现,是人类在预期违背中突破成见、形成新认知的过程,脱口秀演员和科学家在本质上是一类人。
赵昊认为这或许是个好方向,比如让数字人讲脱口秀。话题最后回到统一生成与理解的问题,像Nano Banana那样的工作扩展到视频需要多少计算资源?
彭思达指出,这需要解决一些基础算法问题,比如视频的Tokenization目前可能都没做得很好。视频理解和生成的需求也不同(如处理长视频 vs 生成短视频)。如果Tokenization问题没解决好,以目前的模型规模,上万张GPU卡可能只是起步。
赵昊透露,视频的Tokenizer正是他2026年想“赌”的方向之一。讨论尾声,他正式向在场的学者以及产业界、学术界的朋友发出倡议:当前单打独斗似乎已触及天花板,是时候团结力量,共同推进真正的世界模型了。是否可以共同建立一个世界模型的技术联盟或发布一份倡议书?
这场充满思想火花的圆桌讨论至此落下帷幕。五位学者从技术路径、应用场景到人文关怀,勾勒出世界模型未来发展的多维图景,也留下了诸多待解的难题与广阔的想象空间。