Yume1.5 - 上海AI Lab联合复旦开源的交互式世界生成模型

2026-04-25阅读 937热度 937

人工智能

Yume1.5是什么

Yume1.5是由上海人工智能实验室与复旦大学等机构联合研发的交互式世界生成模型。它能够根据单张图片或一段文本描述，实时生成一个可供探索的、高保真且动态连续的虚拟世界。

实现高质量、低延迟的实时世界生成面临显著的技术挑战。Yume1.5的核心突破在于其创新的联合时空通道建模技术与高效的实时加速策略。这套方案直接解决了传统模型在通用性、延迟和文本指令遵循方面的瓶颈，最终在单张GPU上实现了高达12 FPS的实时渲染性能，为虚拟环境与模拟系统的构建开辟了新的技术路径。

该模型的核心能力体现在以下几个具体功能模块：

Yume1.5卓越的功能表现，源于其底层扎实的技术架构设计。

联合时空通道建模（TSCM）：为高效处理连续帧信息，TSCM技术对历史帧在时间、空间和通道维度进行智能压缩，显著降低显存占用，再通过线性注意力机制融合特征。这种方法以更低计算成本保障了生成内容的时序连贯性与质量。
实时加速策略：为实现低延迟交互，模型采用了双向注意力蒸馏技术并结合增强的文本嵌入方案。该策略使模型在推理时能利用自身已生成的结果进行稳健的下一步预测，形成一个高效闭环，从而加速单步推理并减少错误累积。
文本控制事件生成：模型将复杂文本指令解耦为“事件”与“动作”分别处理，降低了计算复杂度。通过混合数据集的训练，模型精准建立了文本语义与动态视觉变化之间的映射关系，实现了可控的动态事件触发。
系统优化与交替训练范式：为同时掌握世界生成与编辑能力，模型采用了交替训练范式。通过在文本生成任务和图像生成任务间轮换训练，模型获得了更均衡、更强大的综合性能与泛化能力。

如需深入了解技术细节或进行实践，可访问以下官方资源：

项目官网：https://stdstu12.github.io/YUME-Project/ （查看技术演示与项目概述）
GitHub仓库：https://github.com/stdstu12/YUME （获取开源代码及详细技术文档）
HuggingFace模型库：https://huggingface.co/stdstu123/Yume-5B-720P （访问模型权重并进行在线体验）
arXiv技术论文：https://arxiv.org/pdf/2512.22096 （查阅完整的学术论文与实验数据）

Yume1.5的技术特性使其在多个专业领域具备实际应用潜力：