美团LongCat-Video-Avatar 1.5测评：10秒数字人视频1分钟生成实战指南

2026-05-24阅读 0热度 0

LongCat

数字人视频生成领域迎来一项关键开源更新。5月22日，美团技术团队正式推出LongCat-Video-Avatar 1.5版本。该版本的核心使命，是驱动数字人技术从实验室的高精度演示，迈向规模化商业部署的实用阶段。

简言之，1.5版本在1.0“开源SOTA”的基础上，实现了面向商业级应用的系统性增强。其优化聚焦于直接影响用户体验与部署成本的维度：唇形同步精度、动作物理合理性、长序列稳定性，以及至关重要的生成效率提升。

从“彩排”到“登台”：商用体验升级

数字人视频的商业化落地，要求模型超越静态视觉表现。面对真实场景中复杂的语音输入——包括长句、快速语流乃至歌唱——唇部动作必须实现精准的时序对齐。1.5版本强化了唇形驱动模型，使口型运动更为平滑自然。同时，面部微表情、头部姿态与肢体动作的协同性得到优化，提升了数字人的整体拟真度。

模型的应用边界同步拓宽。依托一套高质量数据管线，系统现已能稳定处理真人、动漫角色及动物等多种生成主体。其关键突破在于多人对话场景的区分能力：模型可智能识别发言者与聆听者，并生成相应的姿态与注意力分配，这为虚拟访谈、在线会议等应用提供了核心支持。

商业部署始终伴随成本考量。本次升级在推理效率上取得关键进展：通过引入DMD蒸馏技术，模型将生成所需步数从50步压缩至8步。这直接带来约15倍的推理加速。生成一段10秒视频，耗时仅需约1分钟。效率的跃升，显著降低了算力成本与应用门槛。

体验提升的背后，是三项核心技术迭代。

首先是基础体验的工程化打磨。模型将音频特征编码器从Wav2Vec2升级为参数量更大、具备多语言先验的Whisper-large。此举使其能更精细地捕捉音素细节与语音节奏，从而显著提升唇形同步的准确性，并增强全身动作的时序一致性。长视频中常见的画面抖动、帧间跳跃及身份漂移问题因此得到有效抑制。

数据是模型性能的基石。团队构建了一套涵盖离线标注与在线验证的多阶段数据处理流程。尤为关键的是，他们针对性引入了三类增强数据：用于训练多人交互逻辑的“多人对话数据”、教导模型在静默时段保持自然姿态的“静默数据”，以及提升表现力的“情绪化数据”。这些数据直指虚拟人生成中的典型痛点。

在模型优化层面，通过逐帧级的GRPO偏好对齐技术，专门强化了手部稳定性与动作连续性。这项优化有效缓解了数字人视频中常见的手部畸变与动作断裂问题，使细节表现更为可靠。

技术升级的成效需经严格评测验证。美团基于EvalTalker构建了一个覆盖新闻播报、教育讲解、娱乐互动等多场景的综合评估基准。

根据超过770名评估者完成的1.3万余条主观评分，结合10位专家的结构化分析，在物理合理性、时序稳定性、身份一致性与音画协调性四个核心维度上，LongCat-Video-Avatar 1.5的综合表现（雷达图面积）处于领先地位。

在直接的A/B用户偏好测试中，该模型对比其他主流方案展现出优势：对比Kling Avatar 2.0的胜率为65.9%，对比OmniHuman-1.5的胜率为61.1%，对比HeyGen的胜率为54.3%。

在更具挑战的多人交互场景中，其得分大幅领先于InfiniteTalk。此外，在主体形变与画面跳帧两个关键负向指标上，其问题发生率分别仅为23.1%和0.8%，均优于对比模型。

上述进展标志着数字人视频生成技术正跨越关键门槛：从侧重演示效果转向追求稳定可靠的工业级应用。美团此次开源1.5版本，旨在提供一个“可验证、可迭代、可共建”的技术基座。

当底层模型变得高效、稳定且开源，开发者与创作者便能更专注于上层应用创新，深入探索虚拟数字人在电商直播、在线教育、内容娱乐、智能客服等领域的落地可能性。这正是技术开源的核心价值——降低创新基础设施门槛，加速整个应用生态的演进与繁荣。

项目代码、模型及技术报告已在GitHub、Hugging Face、ModelScope等平台开放获取。