开源世界模型获李飞飞点赞：视频秒变4D可探索世界

2026-06-15阅读 0热度 0

人工智能算法

首个开源世界模型获李飞飞点赞：将视频直接转化为可交互探索的4D空间

近期出现了一个极具颠覆性的开源项目，名为 InSpatio-World。

简单概括其核心价值：

将任意一段普通视频，直接转换成一个可自由漫游、导航，并支持时间回溯的4D动态环境。

这个创新的意义值得深入探讨。

以往的多数视频模型，核心目标集中在生成“可观看”的内容序列。
用户的体验局限于画面构图、镜头切换、运动轨迹与动作细节。

而 InSpatio-World 的突破在于，它超越了让视频更像视频的范畴。
其追求的本质是：将视频背后的场景结构，重塑为一个可供你“步入并探索”的沉浸式世界。

官方项目页：https://www.inspatio.com/zh/models/world

该项目核心亮点解析

官方给出的定义非常清晰：

全球首个以参考视频为条件输入的4D世界模型。

输入是一段单一视角的视频素材。
输出并非简单的帧插值或视角切换。
而是一个动态的、可完全自由探索的三维世界，你可以随心操控视角导航，甚至能回溯到任意时间节点重新观察。

这一定位与传统方案差异巨大。

过去的视频，更像一条预先录制好的河流影像。
你只能被动地站在岸边，观看其固定流向。

InSpatio-World 的目标则是：

将整条河流，连同其河床、岸边的岩石、水流的动态乃至时间的演变，全部作为可交互资源交付给你。

你不再是单纯的观看者。
而是开始转变为这个世界的“进入者”与探索者。

本质并非模拟像素，而是在尝试模拟世界

其核心的技术突破点，称为 State-Anchored World Modeling（状态锚定世界建模）。

通俗地讲，许多生成模型只是在连续地拼凑视觉上合理的画面帧。
它们擅长制造“看起来像”的错觉，但并未真正维护一个逻辑自洽的、持续存在的世界状态。

这导致了大量顽固问题：

物体离开画面后极易出现形态失真
长时间序列生成时，画面内容容易产生漂移
切换观察视角时，场景的空间逻辑关系可能崩溃
时间跨度拉长后，因果律与视觉连续性难以保持稳定

InSpatio-World 的研发目标，正是为了系统性解决上述痛点。

它的技术思路是将输入参考视频锚定为一个局部的世界状态快照，然后随时间推移持续维护并推演这个状态，从而让新生成的内容在空间与时间维度上保持高度连贯性。官方技术文档将此方法论明确概括为“世界状态锚定”、“时空自回归”与“联合分布匹配蒸馏”。

更直白的理解：

**许多视频模型本质是在生成一套连续的视频截图，
而 InSpatio-World 则更像是在后台维护一个持续、稳定运行的微观世界。**

这正是它最值得开发者深入研究的地方。

开发者为何会对该项目充满兴趣

这个项目并非那种“看个热闹就结束”的概念Demo。
其设计架构天然具备极强的可玩性与扩展潜力。

开发者可以很自然地联想到以下应用方向：

能否植入键盘控制逻辑
能否接入手柄实现沉浸式交互
能否自定义视角漫游路径
能否实现时间轴回放与场景重游
能否在此基础上快速搭建轻量级小游戏
能否作为AI Agent的交互与训练环境

观察其GitHub仓库，项目团队已经为这些可能性预留了清晰的入口。

README文件公开了完整的推理流水线，涵盖视频内容描述（caption）、深度信息估计、点云渲染，以及最终的视频到视频（v2v）推理步骤；同时提供了成熟的轨迹控制方案，用户可以通过 --traj_txt_path 参数精准控制新视角合成的路径，仓库内置了如 x_y_circle_cycle.txt（环绕动画）和 zoom_out_in.txt（缩放推拉）等预设轨迹文件。

这说明了什么。

说明它不再是一个仅供围观的研究型玩具。
而是已经具备了清晰的二次开发接口。

你可以基于此框架进行深度功能扩展：

打造可交互的3D世界浏览器
开发4D动态相册应用
构建视频内容的可探索化产品
制作轻量级场景探索小游戏
构建Agent沙箱测试环境
用于自动驾驶仿真场景生成
作为具身智能系统的训练场

事实上，这些方向恰好是官方明确列出的应用场景，包括 具身智能、自动驾驶、4D相册，以及通往世界模拟的路线图。

最具吸引力的点，在于它将视频技术向前推进了一大步

过去业内外对AI视频的理解，大多停留在：

生成视频内容
被动观看视频
分享视频链接

而世界模型这条路，真正的想象空间在于：

“进入”视频场景
自主控制视角
操纵时间流逝
改变交互范式
让人类用户与AI Agent都能在场景中自由活动

官网首页上有一句话精准概括了其愿景：

Beyond the Frame. Into the World.
以及另一句更具野心的宣言：

From simulating pixels to simulating worlds.

这两句话，已经将其技术野心阐述得相当透彻。

它并非试图做一个更花哨的视频生成工具。
而是在探索下一代交互式媒体与世界仿真模型的方向。

指标层面，它同样具备扎实的技术底气

根据官方公布的技术数据，InSpatio-World 的 1.3B 参数版本 在 WorldScore-Dynamic 排行榜上位列实时生成方法第一名，生成速度达到 单 GPU 24 FPS 的实时水平。技术页面还特别提到，在单张 RTX 4090 显卡上即可稳定跑出 10 FPS。

这一数据至关重要。

因为许多听上去极具未来感的系统，在实际应用中只能在离线环境缓慢运行。
距离实时交互、开发者上手调试，还存在巨大鸿沟。

而 InSpatio-World 明确强调的核心能力，就是：

它正在朝着“实时可交互”这一方向坚实迈进。

这使得它从一个纯粹的研究展示项目，开始具备成为真正开发底座的潜力。

从开发者视角审视，四个核心理由足以凸显其项目价值

1. 这不仅是另一个视频生成项目

它在重新定义核心问题：

视频内容，能否直接成为通往虚拟世界的交互入口。

2. 具有明确的Fork与二次开发价值

仓库公开了模型权重下载渠道、完整推理流程、轨迹控制机制以及清晰代码结构，已经具备了构建上层交互层、玩法层与工具化产品的基础。目前该项目代码已在GitHub开源，采用 Apache 2.0 许可协议。

3. 兼顾了研究深度与社区可传播性

很多研究项目技术很强，但普通开发者很难直接上手。
这个项目的优势在于，你阅读后很容易立即产生灵感：

我能基于它来做点什么。

4. 踩准了更大的技术趋势

世界模型真正的价值，远不止于生成视觉内容。
其核心在于让系统具备对空间结构、时间流逝、物理状态和因果关系的持续理解能力。

官方在技术文档中也将长期愿景写得非常清晰：

构建持久化世界
支持因果交互
朝向以Agent为中心的学习范式

这就表明，InSpatio-World 并非终点。
它更像是一个技术征程的起点。

该类项目，其重要性与日俱增

如果说前几年AI视觉领域的竞争焦点是谁更擅长“生成图像”或“生成视频”。
那么未来一个更值得关注的方向，一定在于：

谁能更稳定地“维护世界状态”。

因为内容生成仅是第一步。
更大的商业与技术价值，在于后续：

能否实现长时间段内的几何一致性
能否支持真实的实时交互
能否允许用户进行精准控制
能否作为AI Agent进行自主学习的环境
能否从单纯的“播放内容”跃迁至“模拟世界”

InSpatio-World 至少已经将这一目标，转化成了一个开发者可以触摸、实际运行、并持续改进的开源项目。
这本身就已经极具价值。

结语

很多项目会让观者觉得“很厉害”。
而极少数项目，会让开发者产生一种近乎本能的冲动：

这个玩意儿，我想亲自Fork下来跑一跑。

InSpatio-World 显然属于后者。

曾经，我们只是被动地观看视频。
而现在，视频开始成为一个你可以真正“走进去”的虚拟世界。

这一进化本身，就足以令人充满期待。

项目地址

GitHub: https://github.com/inspatio/inspatio-world
官网: https://www.inspatio.com/zh/models/world
技术页: https://inspatio.github.io/inspatio-world/