京东开源JoyAI-Echo长视频生成框架排行榜精选

2026-06-04阅读 0热度 0
ai

京东旗下JoyAI-Echo长音视频生成框架于6月3日正式开源。该框架精准攻克长视频生成领域的三大顽疾——角色身份崩溃、音频跳变及生成延迟。过去,生成数分钟的长视频需忍受角色中途变形、音色突变等缺陷,且耗时漫长。如今,通过对话式编辑机制,用户可直接语音指令调整特定镜头,无需全片重渲染。

京东开源JoyAI-Echo长视频生成框架

JoyAI-Echo的发布标志着京东跻身长视频生成技术的全球第一梯队。同时实现角色一致性、生成速度与编辑自由度三方面突破的团队,全球屈指可数。

该框架依托四项核心技术创新,每项均针对行业痛点精准发力。

第一项:跨模态音视频记忆库。框架内置专用记忆模块,在跨镜头生成过程中持续追踪角色的外貌、服饰及声纹特征。实测显示,5分钟长视频中角色身份、视觉风格与音色全程稳定,彻底规避“人设漂移”问题。

第二项:记忆驱动后训练。研究团队独创训练流程,融合SFT、跨模态RLHF与DMD技术。其中DMD单一技术即实现约7.5倍生成速度提升,从“分钟级等待”跃迁至“秒级出片”,效率提升立竿见影。

第三项:Director Agent智能导演助手。用户以自然语言描述需求,系统自动解析为剧本、角色、场景与镜头参数。若对某镜头不满,只需语音指令如“切换视角”或“优化角色表情”,系统仅局部重新生成,不动全片。实现真正的“所见即所改”交互体验。

第四项:轻量化实时超分模块。提供两档分辨率升级选项:736×1280→1152×1920,或736×1280→1472×2560。单步超分即可输出高分辨率视频与精细音频,算力开销控制出色。

为验证实际表现,团队构建了包含100个故事、3000个镜头的评测数据集。JoyAI-Echo在跨镜头一致性、视频质量、文本对齐度、语音内容准确率等核心指标上全面领先。其中语音内容准确率达0.8646,在长视频领域极为突出。用户偏好调研显示:81.7%偏好其音频质量,80.6%认可提示词遵循度,视觉美学与IP一致性偏好率分别为63.6%和59.4%,表明主观体验与客观指标高度吻合。

目前JoyAI-Echo的完整代码与模型权重已全面开源,项目主页及GitHub仓库同步上线。开发者可直接下载使用,无需申请内测资格。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策