世界模型首次存档上线!VAST Project Eden深度测评
这一年来,“世界模型”几乎是AI圈最烫的关键词。
越来越多的团队宣称自家模型能“模拟世界”——输入一句话,生成一段连续视频;给定一个动作或镜头,画面里的人物、场景甚至物体都跟着动起来。从感官上看,AI似乎已经摸到了创造世界的门把手。
但冷静想想:生成一段肉眼看着连贯的视频,真的等于构建了一个世界吗?
其实,今天很多所谓的世界模型,在本质上仍然更像一个“视频预测器”。它们擅长根据历史的画面推测下一帧,根据输入的动作生成一小段视觉结果——但世界状态本身,并没有被独立维护。换句话说,模型看到的是一串像素,而不是一个可以长期存在、能被多人同时进入、可以被动作持续改变的世界。
这就带来一个根本性局限:当一个物体离开镜头,它在模型内部是否还存在?当用户转身再回来,场景还能否保持一致?当多个玩家从不同视角进入同一个空间,他们看到的是否真的是同一个世界?
如果这些问题解决不了,那这些所谓的“世界模型”,本质上依然只是“像世界的视频”,而不是真实的世界。
正是在这个判断之上,全球领先的通用人工智能公司VAST,走出了一条在架构层面截然不同的技术路线。
不同于业内常见的“动作条件视频生成”,也不同于静态3D场景生成,他们的Project Eden选择了一条更底层的路径:将“世界的状态推演”与“视觉呈现”进行原生解耦。模型不再在像素层面预测下一帧,而是先维护一个可持续演化的底层世界状态,再根据用户的视角、动作和交互需求,把这个世界渲染成具体的画面。
这一突破,使其成为全球首个允许对世界状态进行自主维护与确定性控制的世界模型,并自然解锁了环境长程持久、场景自由复用、多人并发交互等碘伏性能力。
不妨先看几个demo,直观感受一下。
下面这个视频里,模型不仅完美理解了“暴雨、巨浪与直升机交互”这套复杂的物理规律,用户还能通过屏幕上的虚拟按键,实时、连续、稳定地预测并生成下一帧的3D时空状态。
这段赛车Demo同样惊艳。Project Eden用第一人称视角,呈现了一场极其丝滑的AI赛车体验:玩家实时操控,世界实时响应,赛道、速度感和镜头运动连续衔接,把“生成式世界”里的速度与激情展现得非常直观。
而在下面这个视频里,生成的画面完美融合了人物动画、刚体(木船)以及流体(水面)之间的交互,展现了Project Eden在构建高沉浸感、可交互虚拟世界方面的潜力。
在发布技术的同时,VAST在融资方面也迎来好消息:公司宣布完成A+及A++两轮融资,合计近2亿美元。这是继今年3月融资后,时隔两月再度获得资本加持。
世界模型不能只是“会动的视频”
要理解Project Eden的独特性,得先看清当前行业的主流路径及其内在局限。当下被广泛冠以世界模型之名的技术方案,大致可以分为两类。
第一类是动作条件视频生成。
这类模型通常根据文本、图像、动作指令或相机轨迹,生成一段连续视频。优势是视觉效果直观,生成结果容易被用户理解,也能快速展示出一定的交互感。
但问题在于,它本质上仍然是对2D像素轨迹的预测。世界中发生了什么、物体在哪里、状态如何变化,这些信息往往被隐式压缩在最近几帧画面里。
一旦物体离开相机视野,模型并没有一个独立的“世界状态”去保存它。等镜头重新转回来时,模型只能根据历史上下文重新生成——或者说重新“幻想”这个物体应该是什么样子、在哪里、处于什么状态。
这也是为什么很多视频生成模型在短时间内看起来很连贯,但一旦拉长时间、切换视角,或者引入复杂交互,就容易出现物体消失、结构变形、前后逻辑不一致等问题。
第二类是静态3D场景生成。
这类模型能够生成可供游览的三维空间,相比单目视频生成,它们确实更接近“空间”本身。但如果只有一个静态空间,没有时间维度、物理逻辑和状态转移机制,也很难称之为真正的世界模型。
一个真正有用的世界,不只是能被看见,还应该能被改变、持续运行、支持多个用户或多个智能体同时进入。
因此,VAST对世界模型的判断很明确:一套合格的通用世界模型,至少要同时解决两个核心问题。
- 第一,世界当下的客观状态是什么;
- 第二,这个状态如何随着动作、时间和交互持续演化。
只有同时具备这两点,世界模型才可能从“生成一段内容”走向“生成一个可交互环境”。
Project Eden:一次架构级的重新定义
Project Eden最关键的架构选择,是将底层状态推演与视觉呈现进行原生解耦。
在传统视频生成模型中,状态和画面是高度耦合的。模型看到的是像素,预测的也是像素。世界中有什么、物体如何变化、用户动作产生了什么影响,这些都隐含在视频帧序列里。
Project Eden的思路则不同:他们不是把空间、事件、视角和视觉外观全部塞进像素历史里,而是把“世界本身”和“世界看起来的样子”进行了分拆。
第一层是结构化状态层——这套系统的真正地基。
该层是一个跨时间持续存在、可以进行动作更新、可被任意相机位置查询的全局结构化表征。它并非庞大的4D点云(那会带来不可接受的计算成本),而是一种紧凑的、兼顾效率与语义丰富性的隐式表征。这一层负责回答“世界里有什么、发生了什么”,它是世界的客观基底,独立于任何观察者的视角而存在。
第二层是条件接口层——状态与渲染之间的转换枢纽。
这一层的功能是将底层的全局世界状态,按照特定相机位置和观察视角,转化为适合生成任务使用的局部条件约束,包括语义信息、几何线索、局部事件变化等中间表征。所有视角的渲染都从同一个底层状态中提取条件,这从物理机制上保证了多视角之间的一致性:不同玩家看到的是同一个世界的不同窗口,而非各自独立的像素历史。
第三层是生成式渲染层——在底层状态与中间约束的双重指引下,负责生成精细化的视觉画面。
最上层的渲染模型不再需要承担猜测画面结构的责任,因为结构信息已经由底层状态提供。渲染器专注于自己真正擅长的部分:在给定结构约束的前提下,补全纹理、光照、材质和高频的局部动态细节,生成高保真的视觉画面。
这三层架构改变了世界模型的基本组织方式。状态不再依附于画面,而是作为一个稳定、可查询、可演化的底座独立存在;渲染也不再承担全部逻辑推演,而是根据当前状态、视角和动作条件按需生成画面。
所以说,Project Eden不是在传统视频生成路径上继续预测下一帧,而是把问题改写为:先推演世界下一刻的状态,再从这个状态中生成用户此刻看到的画面。前者更像视频续写,后者才真正接近世界模拟。
解锁三种系统级能力:持久化、可复用、原生多智能体并发
架构的不同,最终体现在能力边界的本质差异上。Project Eden的三层解耦架构,自然解锁了一系列传统视频生成方案无法触及的系统级能力。
Project Eden生成的多角色协同场景
环境长程持久化,是其中最直观、也最碘伏性的一项。
在Project Eden中,物体离开相机视野,并不意味着它从世界中消失。它依然存在于底层状态里,并继续按照世界逻辑运转。当用户转身、离开、再回来时,系统查询的是同一个底层世界状态——比如当玩家转身离开,再转回来,那棵树还在那里——而不是根据历史视频帧重新生成一个相似画面。
这意味着,世界可以拥有真正意义上的长程记忆。用户不再只是观看一段一次性的生成视频,而是进入一个会持续存在的环境。
场景自由复用与确定性控制,是第二项核心能力。
传统视频生成是一次性的时间线:生成过了,历史就固定了,无法回退和分支。但在解耦架构中,底层状态是可以被读写和干预的。用户在场景中进行的破坏、建造、改变,被真实写入底层状态;后续进入同一场景的其他用户,会看到完全一致的世界状态。这不再是每次生成一段新视频,而是所有人共享同一个持续演化的世界。
例如,一个用户在场景中破坏了某个物体、移动了某个建筑、改变了某片区域的状态,这些变化会真实留存在世界里。后续进入同一场景的其他用户,也能看到一致的结果。
这也让生成内容从一次性视频,变成了可复用、可编辑、可持续运营的互动空间。
第三是原生多人和多智能体并发交互。
对于传统视频世界模型来说,多玩家是一个非常困难的问题。因为每个玩家都有自己的视角、动作和画面历史,如果每一路都依赖单独的视频上下文来生成,算力成本和一致性维护都会迅速失控。
在解耦架构中,底层状态只有一份,被所有智能体共享;渲染层根据各自的位置和视角独立生成画面,计算成本从指数级变为线性级。当N个玩家同时在线,系统只需维护一个底层状态和N路渲染,而不是N套完全独立的生成系统。这不只是性能优化,更是商业上大规模落地的先决条件。
数据策略:3D生成真正难啃的硬骨头
Project Eden背后的数据构建逻辑,同样值得深究。
VAST提出了一套原创的分层数据策略,其核心是“双态对齐数据”的概念:只有底层推演态(隐式结构与逻辑)与视觉渲染态(高保真视频画面)完美对齐的数据,才是训练世界模型真正的原生数据。
为此,VAST在数据端部署了两层策略:L1为海量互联网视频自标注,L2为引擎合成数据。
在第一层,VAST依托自身长期积累的3D基础模型能力,对海量无标注互联网2D视频进行反向解构,提取深度、相机位姿与几何轨迹,将单态视频提炼为双态数据。这一方式充分利用了互联网视频的多样性,赋予模型对各类真实世界环境的强泛化能力。
在第二层,VAST利用游戏引擎天然具备双态运行特征的优势,低成本批量生成带有绝对精准3D状态标注、动作指令以及环境变化的配对数据,确保模型学到严密的物理演变与控制逻辑。
这种“互联网数据泛化 + 引擎数据精准化”的组合,在覆盖广度与逻辑精度之间取得了很好的平衡,既不放弃对真实世界分布的学习,也不依赖单一的合成数据来支撑物理逻辑。
不止内容生成:Project Eden的更大想象空间
Project Eden指向的,并不只是一个更强的3D生成工具,而是下一代互动内容的底层基础设施。
过去,3D内容生产的门槛非常高。一个可玩、可交互、可多人进入的世界,通常需要美术、建模、动画、关卡设计、物理引擎、网络同步等复杂流程。生成式AI已经显著降低了3D资产生成的门槛,但单个模型、单个场景、单段动画,都还不是一个真正可运行的世界。
VAST真正想解决的,是这些内容如何被组织进一个稳定、持续、可交互的世界系统之中。
这也意味着,Project Eden面向的不只是专业游戏&开发者。它可以服务普通创作者、虚拟内容社区、社交空间、AI原生游戏,以及未来大量由自然语言驱动的互动内容生产需求。
但从更长远的角度看,Project Eden的潜力可能不止于内容消费。
因为它维护的是一个稳定的底层世界状态,而不是一次性生成的视频画面,这使它天然适合作为通用人工智能的世界底座。对于智能体来说,关键从来不只是看到逼真的画面,而是环境能否按照一致的规则响应动作、保留变化并持续演化。
因此,Project Eden的价值不只是把3D生成推进到交互内容阶段,更在于为世界规则学习、仿真模拟、具身智能、多智能体协同研究提供一个可持续运行的环境。相比纯视频模型,它更接近一个可以被反复进入、持续实验、不断积累交互经验的世界底座。
从这个意义上说,VAST要做的不是再造一个视频生成模型,而是试图搭建下一代互动内容和通用人工智能共同需要的基础设施:一个稳定、有状态、可演化、可被智能体长期训练和探索的生成式世界。
结语
VAST是一家全球领先的通用人工智能公司,其愿景是让所有人都能自由创作、沉浸式体验可交互的世界。
在此之前,VAST已经通过Tripo系列3D大模型,在AI 3D生成领域建立了较强的技术积累。其中,Tripo P1.0能够在2秒内生成专业建模师级别的3D模型,生成速度较市面主流方案提升百倍以上;Tripo H3.1则在模型精度、结构完整性和贴图质量上持续保持行业领先。旗下平台Tripo Studio已聚集超过2000万创作者,累计生成近1亿个3D模型。
Tripo P1.0生成效果
近期,VAST又在Tripo Studio上线了两项新能力。
其中,Tripo 8K贴图算法进一步提升了3D资产的细节表现,贴图精度已经突破人眼分辨极限,即便在近距离特写下,模型表面的纹理、材质和细节也能保持足够真实。
Segmentation V2智能部件拆分,则让3D资产具备了更精细的结构拆解能力。
在3D资产生成上打下基础之后,VAST进一步把能力边界从“生成一个模型”推向“生成一个可运行的世界”。
如果说Tripo让更多人能够低门槛生成3D内容,Project Eden则是让这些内容真正“活”在一个可持续运行的世界里。世界模型的竞争,也由此从“谁更会生成”走向“谁更能维护一个世界”。
当然,通往真正通用的世界模拟器还很长,Project Eden目前更像是确立了一条重要的技术路径:世界模型的未来,不只是让AI更会画世界,而是让AI开始学会维护一个世界。
当世界模型生成的内容不再只是画面,而成为一个可以持续存在、被反复进入、还能被改变的系统,AI内容生成、游戏、空间计算、机器人训练和智能体平台之间的边界,也会随之被重新打开。



