美团LongCat-Video-Avatar 1.5测评:10秒数字人视频1分钟生成实战指南

2026-05-24阅读 0热度 0
LongCat

数字人视频生成领域迎来一项关键开源更新。5月22日,美团技术团队正式推出LongCat-Video-Avatar 1.5版本。该版本的核心使命,是驱动数字人技术从实验室的高精度演示,迈向规模化商业部署的实用阶段。

美团开源 LongCat-Video-A vatar 1.5:数字人视频从“彩排”走向“真舞台”,生成 10 秒视频仅需 1 分钟

简言之,1.5版本在1.0“开源SOTA”的基础上,实现了面向商业级应用的系统性增强。其优化聚焦于直接影响用户体验与部署成本的维度:唇形同步精度、动作物理合理性、长序列稳定性,以及至关重要的生成效率提升。

从“彩排”到“登台”:商用体验升级

数字人视频的商业化落地,要求模型超越静态视觉表现。面对真实场景中复杂的语音输入——包括长句、快速语流乃至歌唱——唇部动作必须实现精准的时序对齐。1.5版本强化了唇形驱动模型,使口型运动更为平滑自然。同时,面部微表情、头部姿态与肢体动作的协同性得到优化,提升了数字人的整体拟真度。

模型的应用边界同步拓宽。依托一套高质量数据管线,系统现已能稳定处理真人、动漫角色及动物等多种生成主体。其关键突破在于多人对话场景的区分能力:模型可智能识别发言者与聆听者,并生成相应的姿态与注意力分配,这为虚拟访谈、在线会议等应用提供了核心支持。

商业部署始终伴随成本考量。本次升级在推理效率上取得关键进展:通过引入DMD蒸馏技术,模型将生成所需步数从50步压缩至8步。这直接带来约15倍的推理加速。生成一段10秒视频,耗时仅需约1分钟。效率的跃升,显著降低了算力成本与应用门槛。

技术深潜:三大升级如何实现

体验提升的背后,是三项核心技术迭代。

首先是基础体验的工程化打磨。模型将音频特征编码器从Wav2Vec2升级为参数量更大、具备多语言先验的Whisper-large。此举使其能更精细地捕捉音素细节与语音节奏,从而显著提升唇形同步的准确性,并增强全身动作的时序一致性。长视频中常见的画面抖动、帧间跳跃及身份漂移问题因此得到有效抑制。

数据是模型性能的基石。团队构建了一套涵盖离线标注与在线验证的多阶段数据处理流程。尤为关键的是,他们针对性引入了三类增强数据:用于训练多人交互逻辑的“多人对话数据”、教导模型在静默时段保持自然姿态的“静默数据”,以及提升表现力的“情绪化数据”。这些数据直指虚拟人生成中的典型痛点。

在模型优化层面,通过逐帧级的GRPO偏好对齐技术,专门强化了手部稳定性与动作连续性。这项优化有效缓解了数字人视频中常见的手部畸变与动作断裂问题,使细节表现更为可靠。

性能实测:数据说话

技术升级的成效需经严格评测验证。美团基于EvalTalker构建了一个覆盖新闻播报、教育讲解、娱乐互动等多场景的综合评估基准。

根据超过770名评估者完成的1.3万余条主观评分,结合10位专家的结构化分析,在物理合理性、时序稳定性、身份一致性与音画协调性四个核心维度上,LongCat-Video-Avatar 1.5的综合表现(雷达图面积)处于领先地位。

在直接的A/B用户偏好测试中,该模型对比其他主流方案展现出优势:对比Kling Avatar 2.0的胜率为65.9%,对比OmniHuman-1.5的胜率为61.1%,对比HeyGen的胜率为54.3%。

在更具挑战的多人交互场景中,其得分大幅领先于InfiniteTalk。此外,在主体形变与画面跳帧两个关键负向指标上,其问题发生率分别仅为23.1%和0.8%,均优于对比模型。

开源的意义:共建技术基座

上述进展标志着数字人视频生成技术正跨越关键门槛:从侧重演示效果转向追求稳定可靠的工业级应用。美团此次开源1.5版本,旨在提供一个“可验证、可迭代、可共建”的技术基座。

当底层模型变得高效、稳定且开源,开发者与创作者便能更专注于上层应用创新,深入探索虚拟数字人在电商直播、在线教育、内容娱乐、智能客服等领域的落地可能性。这正是技术开源的核心价值——降低创新基础设施门槛,加速整个应用生态的演进与繁荣。

项目代码、模型及技术报告已在GitHub、Hugging Face、ModelScope等平台开放获取。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策