流式生成虚拟人动作指南：1帧延迟实现丝滑真人级表现

2026-06-24阅读 0热度 0

机器人

文本驱动的人体动作生成，是赋予游戏NPC、虚拟主播乃至机器人自然动态的核心技术。然而，当前多数系统的输出仍显生硬，缺乏真实流畅感。

以MDM、MoMask为代表的非流式生成模型，在获得完整文本指令后能合成高质量动作序列。但其“批处理”模式存在根本局限：无法进行实时流式生成。若强行拼接分段结果，将导致动作断裂与显著延迟。

现有流式方案同样面临瓶颈。基于分块扩散的方法（如PRIMAL）受限于上下文窗口，首帧延迟严重；基于自回归模型的方法（如MotionStreamer）则难以建模长期依赖。更关键的是，两者普遍存在训练-推理不一致的问题，依赖外部信号触发生成刷新，引入了额外的不匹配与复杂度。

针对上述挑战，盛大AI研究院（东京）与东京大学的研究团队提出了FloodDiffusion。这是首个基于定制化扩散强制框架的流式人体动作生成系统。它能实时响应时变文本指令流，以近乎零延迟生成无限长、过渡平滑且精准对齐的动作序列。此项工作已被CVPR 2026收录为Highlight论文。

△FloodDiffusion流式生成效果：输入时变文本提示（如“抬腿”后接“深蹲”），模型生成平滑连续的人体动作序列

FloodDiffusion三大核心技术改进

为使扩散模型胜任流式生成，FloodDiffusion对扩散强制框架进行了三项关键架构改造。

改进一：下三角时间调度

△噪声调度策略对比：扩散强制（随机调度）、分块扩散（均匀调度）与FloodDiffusion（下三角调度）

原始扩散强制为序列每帧随机采样噪声步，导致训练与推理噪声分布失配。FloodDiffusion采用确定性的“下三角”调度策略。其核心是，在任何时刻t，仅有一个固定大小的“活动窗口”处于去噪状态：窗口前的帧已生成完毕，窗口后的帧仍为纯噪声。

这一设计在数学上保证了流式推理时，每帧的生成质量与使用完整序列的扩散模型完全一致（达到精确似然）。同时，模型计算被严格限制在活动窗口内，实现了恒定计算开销与低至1帧的流式延迟。

改进二：窗口内双向注意力

与视频生成中常用的因果注意力不同，FloodDiffusion在滑动窗口内部启用了双向注意力机制。这是因为窗口内各帧可能处于不同的去噪阶段，当前帧需要充分感知窗口内所有可用的上下文信息，才能依据最新文本提示进行准确去噪。使用因果掩码将丢弃这些关键信息，导致生成质量显著下降。

改进三：连续时变文本调节

传统流式系统依赖“显式刷新”机制：检测到新提示后，需中断生成、清空缓存并重启。FloodDiffusion摒弃了此方式，采用逐帧注入文本条件。它利用预训练T5编码器提取文本特征，通过旋转位置编码与动作token对齐，并在注意力层中通过偏置掩码确保每帧仅关注其对应时刻的文本提示。

该设计使模型能自适应融合新指令，无需推理时优化即可实现动作间的自然切换（如从“行走”过渡到“奔跑”）。值得注意的是，同一文本提示在不同时序点输入，会引发不同的动作响应，这证明了模型对时序语境具备精确的感知与建模能力。

网络架构设计

△FloodDiffusion整体框架：263维动作序列经因果VAE编码至4维隐空间，在活动窗口内进行扩散去噪，并逐帧解码输出

FloodDiffusion采用隐空间扩散框架。263维原始动作序列首先通过一个因果VAE，被编码为紧凑的4维隐变量序列。扩散过程仅在隐空间中进行，这大幅降低了流式延迟，并使去噪器能更专注于时序结构建模。

模型在活动窗口[m(t), n(t))内预测隐变量的速度场，其条件基于上下文[0, n(t))内的历史帧及对应文本。推理时，窗口逐帧滑动，生成的隐变量被即时解码为动作输出，实现真正的端到端流式生成。

因果VAE编码器

区别于非流式方法常用的双向卷积VAE或VQ-VAE，FloodDiffusion采用严格因果设计的VAE：解码器在时刻t不依赖任何未来帧信息。其架构基于视频生成模型Wan2.1中的因果VAE，并将所有时空模块适配为1D时序动作序列。训练使用L2重建损失与标准承诺/码本损失，时间下采样因子为4，隐空间通道维度为4。

DiT去噪骨干网络

隐空间去噪器基于DiT架构，采用共享时间嵌入路径。使用均匀时间步采样，并将流匹配时间偏移设为1，以适配下三角调度策略。文本条件被逐帧施加，由T5编码器（最大长度128）提取的token特征，通过旋转位置编码与当前时刻动作token对齐，并在自注意力层中通过偏置掩码确保每帧仅关注当前激活的文本提示。

实验与性能评估

定量结果分析

在HumanML3D基准测试中，FloodDiffusion取得了FID 0.057的卓越成绩。这不仅大幅超越了现有流式模型PRIMAL（FID 0.511）和MotionStreamer（FID 0.092），甚至逼近了SOTA非流式模型MoMask（FID 0.045）的水平。在衡量文本-动作对齐的关键指标上，其R-Precision@1/2/3分别达到0.523/0.717/0.810，MM-Dist为2.887，在所有对比方法中均位列第一。

在BABEL数据集专为流式场景设计的评估中，FloodDiffusion在过渡平滑度指标上同样全面领先：Peak Jerk（PJ）为0.713（最接近真实数据的1.100），Area Under Jerk（AUJ）为14.05，显著优于PRIMAL（PJ 1.304, AUJ 19.36）和MotionStreamer（PJ 0.912, AUJ 16.57）。

△HumanML3D与BABEL数据集上的定量评估结果（粗体为FloodDiffusion）

用户主观研究

一项百人参与的盲测用户研究，采用Bradley-Terry模型对三个生成模型与真实动作进行评分。结果显示，FloodDiffusion在“动作质量”、“过渡自然度”和“指令一致性”三个维度上，均显著优于PRIMAL和MotionStreamer。尤其在“过渡自然度”上，其得分（0.152）已非常接近真实动作数据（0.299）。

△基于Bradley-Terry模型的用户研究结果（100名参与者）

消融实验验证

消融实验有力证实了两项核心设计的必要性：

△核心设计消融实验：移除任一改进均导致性能显著下降

若移除双向注意力（仅用因果注意力），FID将从0.057飙升至3.377，R@3从0.810降至0.625；若移除下三角调度（改用随机调度），FID将从0.057飙升至3.883，R@3从0.810降至0.532。任何一项改进的缺失都会导致模型性能断崖式下滑，证明了这些定制化改造对于扩散强制框架在动作生成任务上的决定性作用。

△Classifier-Free Guidance（CFG）对FID和MM-Dist的影响，最优CFG=6

生成效果展示

时变条件响应能力：

△时变条件对比：同一文本提示在不同时刻输入产生差异化动作结果，体现模型对时序信息的精确感知

FloodDiffusion能依据文本提示输入的时序，生成不同的动作结果。如上图所示：（左上）两个提示词在不同帧输入，模型依次响应生成对应动作；（右上）相同提示词作为单一输入一次性给出，模型则生成一个不同的混合动作；（左下）提示词在序列前期输入；（右下）相同提示词在序列后期输入——模型对时序信息的精确感知，使其能在不同语境下产生合理且差异化的输出。

长序列生成行为：

△长序列生成：无新提示时重复当前动作（左），可通过“站立”等指令主动停止（右）

在生成长序列时，FloodDiffusion展现出两种典型行为：（左）当无新提示词输入时，模型会持续重复当前文本对应的动作；（右）在实际交互中，可通过显式给出静止类指令（如“站立”）来终止当前动作，实现灵活可控的交互。

技术总结与展望

FloodDiffusion首次将扩散强制框架成功应用于流式人体动作生成。通过下三角时间调度、窗口内双向注意力及连续时变文本调节这三项定制化改造，它从根本上解决了原始扩散强制在处理动作数据时易出现的分布坍塌问题。该框架实现了训练与推理的一致性，无需在推理时进行手动优化，具备恒定计算开销与极低的控制响应延迟，为实时交互游戏NPC、虚拟主播及机器人控制等场景，提供了一个高质量的流式动作生成解决方案。

未来工作将探索融合音频、力反馈、环境信息等多模态时变条件，以进一步拓展其应用边界。