京东开源JoyAI-Echo长视频生成框架排行榜精选

2026-06-04阅读 0热度 0

京东旗下JoyAI-Echo长音视频生成框架于6月3日正式开源。该框架精准攻克长视频生成领域的三大顽疾——角色身份崩溃、音频跳变及生成延迟。过去，生成数分钟的长视频需忍受角色中途变形、音色突变等缺陷，且耗时漫长。如今，通过对话式编辑机制，用户可直接语音指令调整特定镜头，无需全片重渲染。

JoyAI-Echo的发布标志着京东跻身长视频生成技术的全球第一梯队。同时实现角色一致性、生成速度与编辑自由度三方面突破的团队，全球屈指可数。

该框架依托四项核心技术创新，每项均针对行业痛点精准发力。

第一项：跨模态音视频记忆库。框架内置专用记忆模块，在跨镜头生成过程中持续追踪角色的外貌、服饰及声纹特征。实测显示，5分钟长视频中角色身份、视觉风格与音色全程稳定，彻底规避“人设漂移”问题。

第二项：记忆驱动后训练。研究团队独创训练流程，融合SFT、跨模态RLHF与DMD技术。其中DMD单一技术即实现约7.5倍生成速度提升，从“分钟级等待”跃迁至“秒级出片”，效率提升立竿见影。

第三项：Director Agent智能导演助手。用户以自然语言描述需求，系统自动解析为剧本、角色、场景与镜头参数。若对某镜头不满，只需语音指令如“切换视角”或“优化角色表情”，系统仅局部重新生成，不动全片。实现真正的“所见即所改”交互体验。

第四项：轻量化实时超分模块。提供两档分辨率升级选项：736×1280→1152×1920，或736×1280→1472×2560。单步超分即可输出高分辨率视频与精细音频，算力开销控制出色。

为验证实际表现，团队构建了包含100个故事、3000个镜头的评测数据集。JoyAI-Echo在跨镜头一致性、视频质量、文本对齐度、语音内容准确率等核心指标上全面领先。其中语音内容准确率达0.8646，在长视频领域极为突出。用户偏好调研显示：81.7%偏好其音频质量，80.6%认可提示词遵循度，视觉美学与IP一致性偏好率分别为63.6%和59.4%，表明主观体验与客观指标高度吻合。

目前JoyAI-Echo的完整代码与模型权重已全面开源，项目主页及GitHub仓库同步上线。开发者可直接下载使用，无需申请内测资格。

上一篇暗物质探测关键突破中国科学家开辟新路径有望直接观测 下一篇光联芯科获近5亿融资光互连赛道获资本长期青睐

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

京东开源JoyAI-Echo长视频生成框架排行榜精选

相关阅读

最新教程

最新资讯