3D数字人动作生成新范式：SentiAvatar深度评测

2026-06-24阅读 0热度 0

动作逐帧奥运数字人新论文

与3D数字人面对面交流时，你是否曾感到一种难以名状的违和？嘴唇在机械地开合，面部却像冻结的雕塑；手臂或许在挥动，但与说话内容毫无关联。更糟的是，那种外表逼近真实、动作却生涩失调的观感，会瞬间把人拽入“恐怖谷”的深渊。

问题核心在于：人类沟通从来不是语言或动作的单向信号。一个耸肩就能传递无奈，一次点头足以表达认同，微微扬起的眉毛则悄然暴露怀疑。这些由手势、姿态和面部表情编织的非语言信号，才是真实交流中不可或缺的血肉。

遗憾的是，目前大多数3D数字人的动作生成仍停留在通用动作库的机械拼接阶段，难以承载复杂的语义和细腻的情绪。而自然连贯、富有表现力的动作，恰恰是3D数字角色的灵魂所在——对数字人而言，它是建立信任的桥梁；对服务机器人，它是无缝协作的基石；对游戏角色，它则是赋予生命力的关键。

转机已经到来。AI初创公司SentiPulse与中国人民大学高瓴人工智能学院博士生团队的最新研究，提出了一套名为SentiA vatar的3D数字人动作生成新范式。这是一个旨在构建具备表现力的交互式3D数字人的完整框架。基于此框架打造的虚拟角色“SUSU”，已能实时协调语言表达、动作表现与情绪传达。

今天，SentiA vatar框架、3D数字人SUSU角色模型及其高质量动作数据集SuSuInterActs已面向全球同步开源。

一眼假的3D数字人，困在三个“无人区”

让3D数字人在真实对话中自然地手舞足蹈，听起来像是个工程优化问题，实则横跨了三块长期未被协同攻克的研究“无人区”：

第一，高质量数据荒。现有数据集要么以英语语料为主，要么缺乏与动作精确同步的面部表情数据。在中文对话场景下，高质量的全身多模态动作数据几乎是一片空白。

第二，复合语义动作漂移。当指令从简单的“挥手”升级为“无奈地耸肩”、“认同地点头”这类复合语义时，现有模型的理解能力往往急剧退化，生成的动作与意图南辕北辙。

第三，对话节奏错乱。生成的动作要么像机械钟摆般匀速呆板，要么完全跟不上语音的重音、停顿与节奏变化，导致音画严重脱节。

那么，能否让数字人既精准理解“要说什么”，又能做出与说话节奏严丝合缝的流畅动作？这需要从根本上重新思考问题模型。

问题本质：语义与韵律是两个时间尺度的问题

现有方法在对话驱动的动作生成上常陷入两难境地：全局语义对齐要求模型理解句子级别的行为意图（如“无奈地耸肩”），并规划出宏观的动作结构；而帧级韵律对齐则要求动作的疾徐起伏能精确响应语音中每一帧的重音、停顿与节律。这两者分别工作在句子级和帧级两个截然不同的时间尺度上，强行塞入单一模型往往顾此失彼。

以往的共语音手势生成方法（如EMAGE、TalkShow等）倾向于将动作视为音频信号的直接反射，缺乏高层级的语义规划；而纯文本驱动的动作生成方法（如T2M-GPT、MoMask等）则完全丢弃了音频信号，无法捕捉语音韵律对动作时序的精细调制。SentiA vatar的突破点，正是将这两个目标解耦，把句子级语义规划与帧级韵律驱动分阶段处理，而非强行融合。

SentiA vatar：3D数字人动作生成新范式

为了系统性解决上述挑战，SentiPulse团队基于统一的SentiA vatar技术框架，打造了虚拟角色SUSU，并构建了高质量的SuSuInterActs数据集。该数据集包含2.1万段对话片段，总计37小时，通过光学动捕技术采集，围绕单一角色，同步收录了语音、全身动作与面部表情数据。其次，团队在超过20万条异质动作序列上预训练了一个动作基础模型（Motion Foundation Model），使其积累了丰富的通用运动先验，能力远超对话场景本身。在此基础上，团队创新性地提出了一种“先规划，后填充”（plan-then-infill）的全新架构，将句子级语义规划与逐帧的韵律驱动插值解耦，从而让生成的动作既符合高层语义，又在节奏上与语音高度同步。

SuSuInterActs数据集：填补中文高质量数据空白

数据瓶颈是必须直面的硬核问题。现有共语音数据集主要存在两大局限：一是以英语为主，二是缺乏同步的面部表情数据，这在中文对话场景下尤为突出。

SentiPulse团队围绕单一虚拟角色SUSU（设定为22岁，性格温柔活泼，情感丰富），从头构建了SuSuInterActs数据集。该数据集包含2.1万段片段、37小时的多模态对话语料，涵盖同步的语音、带行为标注的文本、全身动作与面部表情。

数据采集流程分为四步：首先，利用大语言模型生成带有行为标注的对话脚本（如标注“摊手无奈”、“表情担忧”等）。接着，由专业动捕演员使用Nokov光学动捕系统、MANUS手套及iPhone ARKit系统进行完整录制。随后进行后处理与时间对齐（统一至20FPS帧率，实现帧级同步）。

最终数据集规模达到21,133条片段，总计36.9小时，覆盖日常聊天、情感支持、趣味互动等多种场景。每条样本包含四路同步模态数据：中文对话文本（含行为语义标注）、语音音频（WA V格式）、全身骨骼动作（63关节，6D旋转表示）、面部混合形状系数（51维ARKit参数）。其中，14,278条包含非默认动作标注，9,412条包含非默认表情标注。

聚焦单一角色是一个有意为之的设计。相比BEAT2等多角色数据集，这种设计带来了更一致的行为模式，有利于学习角色特定的动作与表情风格。

动作基础模型：20万序列的异质预训练

对话数据集的动作分布天然受限于对话场景。为了突破这一局限，团队在预训练阶段引入了自研的动作基础模型，在超过20万条异质动作序列（约676小时）上训练通用运动先验。数据来源广泛，包括：

其知识蒸馏流程颇具巧思：通过挖掘原子动词、利用大语言模型扩展同义短语、组合模板生成复合动作描述（最多支持4个动作组合），并引入奥运运动、仿生动作等专项类别，系统性地扩展了动作先验的知识边界。

该基础模型以Qwen-0.5B为骨干网络，将词表扩展至包含2,048个动作Token（来自4层残差量化VQ-VAE，每层码本大小为512）和音频Token（通过HuBERT模型进行K-means量化获得）。预训练任务为文本-动作生成，所有文本描述均统一翻译为中文，以保持语言空间的一致性。

核心架构：分而治之的“Plan-then-Infill”

用对话生成动作的核心，在于理解高层语义意图。模型需要先规划“做什么动作”，再决定“如何逐帧执行”，这是一个典型的规划问题。SentiA vatar采用双通道并行架构，将身体动作与面部表情分离处理。身体动作通道由两个串联阶段构成。

1. 身体动作通道

第一阶段，大语言模型语义规划器接收行为标签文本和稀疏的音频Token，输出稀疏的关键帧动作Token序列。为了支持多轮流式连续生成，模型会以前一句话的最后两个关键帧的音频-动作Token对作为上下文前缀，从下一个关键帧位置开始续写，从而实现跨句的无缝过渡。

第二阶段，身体填充变换器（Body Infill Transformer）负责在相邻关键帧之间填入中间3帧。它以逐帧提取的HuBERT连续特征（768维，20FPS）作为条件信号。模型采用5帧滑动窗口，已知首尾帧，预测中间3帧（对应12个动作Token）。推理时使用迭代置信度解码策略（默认6步），逐步接受高置信度的预测结果，避免一次性预测可能带来的质量退化。

2. 面部表情通道

面部表情的动态与语音韵律高度耦合，无需经过句子级语义规划。因此，面部表情通道直接绕过了大语言模型规划阶段。面部填充变换器（Face Infill Transformer）结构与身体填充变换器类似，但操作的是每帧2个Token的面部离散表示。它直接从音频特征生成面部Token，再由面部残差量化自编码器解码为51维ARKit混合形状系数序列。

两个通道共享HuBERT特征提取器，端到端延迟约为0.53秒即可生成6秒的动作序列，并支持无限轮次的流式输出。

实时性能与实验验证：双刷SOTA，效果显著

在工程落地能力上，SentiA vatar实现了在0.3秒内生成6秒动作序列，支持实时流式交互。这意味着数字人可以在对话过程中持续生成连贯的动作与表情，无需等待整句话结束再进行批量处理。

整体实验结果：跨数据集均达最优水平

实验结果表明，SentiA vatar在自建的SuSuInterActs测试集和公开的BEATv2数据集上均达到了当前最优水平。

在SuSuInterActs测试集上，SentiA vatar的文本-动作检索召回率（R@1）达到43.64%，接近次优基线T2M-GPT（23.12%）的两倍；FID分数降至8.912（对比T2M-GPT的67.78和EMAGE的441.6）。在跨数据集评测BEATv2上，SentiA vatar以FGD分数4.941、BC分数8.078同时刷新了两项指标的SOTA，超越了此前最优的Language-of-Motion（FGD 5.301）和SynTalker（BC 7.971），验证了该方法优秀的跨语言、跨数据集泛化能力。此外，SentiA vatar在所有生成方法中取得了最低的事件同步距离（ESD为0.456秒，真实动作基准为0.308秒）。

注：ESD（事件同步距离）是一种用于客观衡量生成动作与驱动信号（如语音节奏）之间时间同步性的指标，它直接反映了动作是否“对得上拍子”。

定性分析结果：SentiA vatar动作生成效果最佳

团队将SentiA vatar与几种主流的3D动作生成AI模型进行了可视化对比。下图中每一行展示特定动作与语音的关键帧序列，相同颜色的文字和箭头代表同一时间点，红色箭头则标示出动作错误。

对比结果显示，SentiA vatar呈现出最自然的生成效果：动作语义正确，并且在时间线上与音频波形高度对齐。MoMask能够从文本标签中部分捕捉动作语义，但由于无法获取语音信息，生成的动作节奏较为静态，且与音频无对应关系。EMAGE可以生成与音频同步的动作，但动作较为通用，忽略了标签中指定的具体语义意图。AT2M-GPT尽管能同时接受音频和文本输入，却常常误解动作语义。HunYuan-Motion因未基于高质量动捕数据训练，生成结果中存在明显的身体畸形和不自然姿态，整体表现欠佳。

消融实验结果：验证核心架构各部分不可替代

在架构消融实验中，移除大语言模型规划器会导致性能大幅下降：R@1从43.64%骤降至28.06%，FID从8.912劣化至27.567，这证明了句子级语义规划至关重要。移除填充变换器同样会导致所有指标下降，R@1降至27.52%，ESD恶化至0.503秒，因为仅依赖稀疏关键帧会产生不连续、节奏不自然的动作。

音频条件消融实验进一步揭示，填充变换器中的连续HuBERT特征是驱动帧级同步的主力，而大语言模型中的离散音频Token则更多贡献于整体动作质量和节律规划，验证了“粗粒度音频规划+细粒度音频对齐”协同设计的有效性。

开源与未来：从“数字人”到下一代“数字生命”

随着SentiA vatar框架、SuSuInterActs数据集及预训练模型在GitHub上重磅开源，SentiPulse团队正邀请全球对3D动作生成感兴趣的研究机构与开发者，共同探索技术与应用的新边界。

然而，其视野远不止于此。当前，3D数字人领域的竞争焦点仍多集中于视觉形象的逼真度与基础的语音-动作同步能力。下一步的技术跃迁，在于构建像人一样的认知与表达能力：更完整的表达模型、更统一的人格系统、更长期的交互记忆。未来的竞争重心，将不再仅仅是谁渲染得更真实，而是谁能构建更完整的“认知-表达”闭环。

当数字人不再是按脚本行动的“提线木偶”，而是能感知语境、理解情绪、并主动表达的交互主体时，人机关系的底层逻辑将被重塑。下一代真正意义上的“数字生命”，正在从蓝图走向现实。