京东开源JoyAI-Echo:长视频角色一致对话式编辑工具推荐 2026-06-12阅读 0热度 0 开盲盒 # 京东开源重磅!AI长视频生成迎来“分钟级”新纪元 前几天,京东在AI视频赛道投下了一颗重磅冲击波——JoyAI-Echo正式开源了。 消息一出,整个行业为之一振。原因很简单:它精准击穿了AI长视频生成的三大“老大难”问题——角色“变脸”、声音忽高忽低、生成速度慢到让人抓狂。 回想几个月前,能生成几十秒稳定的短视频已经让人兴奋不已。可一旦把时长拉到分钟级,问题就全暴露了:同一个角色,上一个镜头和下一个镜头脸型可能完全对不上;说话人的音色前后不一致;更别提漫长的等待,改个细节还得从头再来一遍。 而JoyAI-Echo的出现,彻底打破了这种局面。它不仅能生成最长5分钟的连续故事视频,角色身份、视觉形象和声音音色在整个过程中保持高度一致;更让人惊喜的是,它还支持用自然语言进行局部修改,不用重跑整条视频。 今天,我们来深入了解一下这个来自京东Joy Future Academy的硬核项目。 ## 项目介绍 JoyAI-Echo是京东Joy Future Academy发布的长音视频生成框架,专为分钟级多镜头故事生成设计。 项目的核心目标非常明确:让AI长视频生成从“开盲盒”变成“所想即所得”。 为了实现这一目标,团队提出了四项关键技术创新,逐一攻克了行业长期存在的难题。 目前,JoyAI-Echo已经在GitHub和Hugging Face全面开放,开发者和创作者可以免费体验和二次开发。项目还提供了ComfyUI节点集成,让非技术用户也能轻松上手。 ## 核心亮点 ### 1、5分钟长视频,角色不崩、声音不飘 JoyAI-Echo最让人震撼的能力,是能生成长达5分钟的连续故事视频,并且在整段视频中,角色身份、视觉形象和声音音色都能保持高度一致。 秘密武器就在于它内置的“跨模态音视频记忆库”。框架通过Slot-Paired机制将视觉记忆与音频记忆绑定存储,在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系。这就像导演手中拿着角色的“完整档案”,每一帧都严格参照执行。 ### 2、7.5倍速度提升 传统长视频生成的等待时间,有时真能把人的耐心消磨殆尽。几分钟、半小时……甚至更久。 JoyAI-Echo通过记忆驱动后训练与Distribution Matching Distillation(DMD)技术,实现了约7.5倍的推理加速。研发团队创新性地提出一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态RLHF及DMD技术。其中,DMD将原本的多步扩散推理压缩为少步推理,在保持生成质量的同时大幅提升速度——简单说,就是从“等得花都谢了”到“瞬间出片”的跨越。 ### 3、对话式编辑,局部修改不用重跑整条视频 JoyAI-Echo不再是“输入提示词,一次性出结果”的传统工具。它引入了一个智能“导演助理”——Director Agent,让长视频第一次实现了“对话式编辑”。 你用自然语言说出需求,它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意?直接用对话告诉它修改。它只重新生成有问题的局部镜头,完全不用重跑整条视频。这种体验,就像你真的有一个随叫随到的副导演在协助你。 ### 4、720p实时超分到2K高清 为了满足专业内容生产的需求,JoyAI-Echo还配套了专门的实时超分模块,支持两档分辨率提升:736×1280 → 1152×1920,以及736×1280 → 1472×2560。 模块通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现。这意味着,生成的视频可以直接用于专业内容生产,而不仅仅是停留在“看看效果”的阶段。 ## 快速上手 ### 1. 克隆仓库 ```ja vascript git clone https://github.com/jd-opensource/JoyAI-Echo.git cd JoyAI-Echo ``` ### 2. 创建环境 参考环境是Python 3.11、PyTorch 2.8、CUDA 12.8。 使用conda: ```ja vascript conda env create -f environment.yml conda activate echo-long ``` 或使用uv: ```ja vascript uv venv --python 3.11 .venv source .venv/bin/activate uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt ``` 注意:ffmpeg必须在PATH中可用(用于镜头拼接)。conda配方已包含它。如果你使用uv,请用系统包管理器安装: ```ja vascript # Ubuntu/Debian sudo apt install ffmpeg # macOS brew install ffmpeg ``` ### 3. 下载权重 下载JoyAI-Echo发布检查点和Gemma文本编码器: | 文件 | 描述 | 大小 | 链接 | |---|---|---|---| | echo-longvideo-release.safetensors | 完整模型(transformer + VAE + vocoder) | ~46 GB | JoyAI-Echo | | gemma-3-12b/ | 指令微调模型(文本编码器) | ~24 GB | gemma-3-12b-it | 将它们放在`checkpoints/`目录下: ```ja vascript checkpoints/ ├── echo-longvideo-release.safetensors └── gemma-3-12b/ ``` ### 4. 编写故事提示词 这里有一个小技巧:**强烈建议先使用项目提供的提示词增强器**。系统提示词可以将简短的故事或想法扩展为结构良好的镜头提示词: - `prompts/long_story_writer_system_prompt.md`:用于长、多镜头视频 - `prompts/short_story_writer_system_prompt.md`:用于单镜头短视频 在`prompts/`下创建一个JSON文件。每个文件是一个单个对象,包含`prompts`列表,其中每个字符串是一个完整镜头。单个字符串产生一个镜头;多个字符串产生多镜头故事,每个新镜头通过配对音视频记忆库以之前的镜头为条件。 在每个字符串中,按顺序编写这些部分: | 部分 | 描述内容 | |---|---| | 角色与主体 | 描述所有可见人物的外观,包括年龄、体型、发型、面部、服装,以及适用时的说话音色 | | 动作与对话 | 主体做什么和说什么 | | 风格 | 整体视觉和情感美学——例如,现实赛车电影语言、凉爽日光、克制的电影张力 | | 镜头运动 | 镜头类型和构图或运动——例如,面部稳定特写,或腰部以上的中景 | | 背景 | 主体背后的设置和场景细节 | | 音效与BGM | 场景中的声音和背景音乐——例如,房间音调、风、脚步声和织物,对话下有柔和的低音音乐床或无背景音乐 | ### 5. 运行推理 ```ja vascript python inference.py ``` 这会加载模型一次,并处理`prompts/`下的所有提示文件。 注意:推理管道针对低VRAM GPU进行了优化。默认设置(25 fps × 241帧 × 1280 × 736)下,峰值GPU使用量约为46–50 GB,代价是每镜头推理时间稍长。 ## 写在最后 JoyAI-Echo的推出,标志着京东在长视频生成领域实现了一次重大突破。它用四项实打实的技术创新,彻底打破了长视频生成的“三角问题”: 1. 跨模态音视频记忆库解决了角色变脸问题 2. DMD蒸馏技术实现了7.5倍速度提升 3. Director Agent带来了对话式编辑体验 4. 轻量化实时超分保证了高清输出质量 你可以像聊天一样,持续创作、修改和完善长视频内容,让高一致性、高画质、可交互的视频生成,真正走进每一个内容创作者的工作流。 目前,JoyAI-Echo的代码和权重已全部开源。如果你对长视频生成感兴趣,不妨去GitHub亲自体验一下。 GitHub:https://github.com/jd-opensource/JoyAI-Echo