开源世界模型获李飞飞点赞:视频秒变4D可探索世界
首个开源世界模型获李飞飞点赞:将视频直接转化为可交互探索的4D空间
近期出现了一个极具颠覆性的开源项目,名为 InSpatio-World。
简单概括其核心价值:
将任意一段普通视频,直接转换成一个可自由漫游、导航,并支持时间回溯的4D动态环境。
这个创新的意义值得深入探讨。
以往的多数视频模型,核心目标集中在生成“可观看”的内容序列。
用户的体验局限于画面构图、镜头切换、运动轨迹与动作细节。
而 InSpatio-World 的突破在于,它超越了让视频更像视频的范畴。
其追求的本质是:将视频背后的场景结构,重塑为一个可供你“步入并探索”的沉浸式世界。
官方项目页:https://www.inspatio.com/zh/models/world
该项目核心亮点解析
官方给出的定义非常清晰:
全球首个以参考视频为条件输入的4D世界模型。
输入是一段单一视角的视频素材。
输出并非简单的帧插值或视角切换。
而是一个动态的、可完全自由探索的三维世界,你可以随心操控视角导航,甚至能回溯到任意时间节点重新观察。
这一定位与传统方案差异巨大。
过去的视频,更像一条预先录制好的河流影像。
你只能被动地站在岸边,观看其固定流向。
InSpatio-World 的目标则是:
将整条河流,连同其河床、岸边的岩石、水流的动态乃至时间的演变,全部作为可交互资源交付给你。
你不再是单纯的观看者。
而是开始转变为这个世界的“进入者”与探索者。
本质并非模拟像素,而是在尝试模拟世界
其核心的技术突破点,称为 State-Anchored World Modeling(状态锚定世界建模)。
通俗地讲,许多生成模型只是在连续地拼凑视觉上合理的画面帧。
它们擅长制造“看起来像”的错觉,但并未真正维护一个逻辑自洽的、持续存在的世界状态。
这导致了大量顽固问题:
- 物体离开画面后极易出现形态失真
- 长时间序列生成时,画面内容容易产生漂移
- 切换观察视角时,场景的空间逻辑关系可能崩溃
- 时间跨度拉长后,因果律与视觉连续性难以保持稳定
InSpatio-World 的研发目标,正是为了系统性解决上述痛点。
它的技术思路是将输入参考视频锚定为一个局部的世界状态快照,然后随时间推移持续维护并推演这个状态,从而让新生成的内容在空间与时间维度上保持高度连贯性。官方技术文档将此方法论明确概括为“世界状态锚定”、“时空自回归”与“联合分布匹配蒸馏”。
更直白的理解:
**许多视频模型本质是在生成一套连续的视频截图,
而 InSpatio-World 则更像是在后台维护一个持续、稳定运行的微观世界。**
这正是它最值得开发者深入研究的地方。
开发者为何会对该项目充满兴趣
这个项目并非那种“看个热闹就结束”的概念Demo。
其设计架构天然具备极强的可玩性与扩展潜力。
开发者可以很自然地联想到以下应用方向:
- 能否植入键盘控制逻辑
- 能否接入手柄实现沉浸式交互
- 能否自定义视角漫游路径
- 能否实现时间轴回放与场景重游
- 能否在此基础上快速搭建轻量级小游戏
- 能否作为AI Agent的交互与训练环境
观察其GitHub仓库,项目团队已经为这些可能性预留了清晰的入口。
README文件公开了完整的推理流水线,涵盖视频内容描述(caption)、深度信息估计、点云渲染,以及最终的视频到视频(v2v)推理步骤;同时提供了成熟的轨迹控制方案,用户可以通过 --traj_txt_path 参数精准控制新视角合成的路径,仓库内置了如 x_y_circle_cycle.txt(环绕动画)和 zoom_out_in.txt(缩放推拉)等预设轨迹文件。
这说明了什么。
说明它不再是一个仅供围观的研究型玩具。
而是已经具备了清晰的二次开发接口。
你可以基于此框架进行深度功能扩展:
- 打造可交互的3D世界浏览器
- 开发4D动态相册应用
- 构建视频内容的可探索化产品
- 制作轻量级场景探索小游戏
- 构建Agent沙箱测试环境
- 用于自动驾驶仿真场景生成
- 作为具身智能系统的训练场
事实上,这些方向恰好是官方明确列出的应用场景,包括 具身智能、自动驾驶、4D相册,以及通往世界模拟的路线图。
最具吸引力的点,在于它将视频技术向前推进了一大步
过去业内外对AI视频的理解,大多停留在:
- 生成视频内容
- 被动观看视频
- 分享视频链接
而世界模型这条路,真正的想象空间在于:
- “进入”视频场景
- 自主控制视角
- 操纵时间流逝
- 改变交互范式
- 让人类用户与AI Agent都能在场景中自由活动
官网首页上有一句话精准概括了其愿景:
Beyond the Frame. Into the World.
以及另一句更具野心的宣言:
From simulating pixels to simulating worlds.
这两句话,已经将其技术野心阐述得相当透彻。
它并非试图做一个更花哨的视频生成工具。
而是在探索下一代交互式媒体与世界仿真模型的方向。
指标层面,它同样具备扎实的技术底气
根据官方公布的技术数据,InSpatio-World 的 1.3B 参数版本 在 WorldScore-Dynamic 排行榜上位列实时生成方法第一名,生成速度达到 单 GPU 24 FPS 的实时水平。技术页面还特别提到,在单张 RTX 4090 显卡上即可稳定跑出 10 FPS。
这一数据至关重要。
因为许多听上去极具未来感的系统,在实际应用中只能在离线环境缓慢运行。
距离实时交互、开发者上手调试,还存在巨大鸿沟。
而 InSpatio-World 明确强调的核心能力,就是:
它正在朝着“实时可交互”这一方向坚实迈进。
这使得它从一个纯粹的研究展示项目,开始具备成为真正开发底座的潜力。
从开发者视角审视,四个核心理由足以凸显其项目价值
1. 这不仅是另一个视频生成项目
它在重新定义核心问题:
视频内容,能否直接成为通往虚拟世界的交互入口。
2. 具有明确的Fork与二次开发价值
仓库公开了模型权重下载渠道、完整推理流程、轨迹控制机制以及清晰代码结构,已经具备了构建上层交互层、玩法层与工具化产品的基础。目前该项目代码已在GitHub开源,采用 Apache 2.0 许可协议。
3. 兼顾了研究深度与社区可传播性
很多研究项目技术很强,但普通开发者很难直接上手。
这个项目的优势在于,你阅读后很容易立即产生灵感:
我能基于它来做点什么。
4. 踩准了更大的技术趋势
世界模型真正的价值,远不止于生成视觉内容。
其核心在于让系统具备对空间结构、时间流逝、物理状态和因果关系的持续理解能力。
官方在技术文档中也将长期愿景写得非常清晰:
- 构建持久化世界
- 支持因果交互
- 朝向以Agent为中心的学习范式
这就表明,InSpatio-World 并非终点。
它更像是一个技术征程的起点。
该类项目,其重要性与日俱增
如果说前几年AI视觉领域的竞争焦点是谁更擅长“生成图像”或“生成视频”。
那么未来一个更值得关注的方向,一定在于:
谁能更稳定地“维护世界状态”。
因为内容生成仅是第一步。
更大的商业与技术价值,在于后续:
- 能否实现长时间段内的几何一致性
- 能否支持真实的实时交互
- 能否允许用户进行精准控制
- 能否作为AI Agent进行自主学习的环境
- 能否从单纯的“播放内容”跃迁至“模拟世界”
InSpatio-World 至少已经将这一目标,转化成了一个开发者可以触摸、实际运行、并持续改进的开源项目。
这本身就已经极具价值。
结语
很多项目会让观者觉得“很厉害”。
而极少数项目,会让开发者产生一种近乎本能的冲动:
这个玩意儿,我想亲自Fork下来跑一跑。
InSpatio-World 显然属于后者。
曾经,我们只是被动地观看视频。
而现在,视频开始成为一个你可以真正“走进去”的虚拟世界。
这一进化本身,就足以令人充满期待。
项目地址
- GitHub: https://github.com/inspatio/inspatio-world
- 官网: https://www.inspatio.com/zh/models/world
- 技术页: https://inspatio.github.io/inspatio-world/

