京东开源JoyAI-Echo：长视频角色一致对话式编辑工具推荐

2026-06-12阅读 0热度 0

开盲盒

# 京东开源重磅！AI长视频生成迎来“分钟级”新纪元前几天，京东在AI视频赛道投下了一颗重磅冲击波——JoyAI-Echo正式开源了。消息一出，整个行业为之一振。原因很简单：它精准击穿了AI长视频生成的三大“老大难”问题——角色“变脸”、声音忽高忽低、生成速度慢到让人抓狂。回想几个月前，能生成几十秒稳定的短视频已经让人兴奋不已。可一旦把时长拉到分钟级，问题就全暴露了：同一个角色，上一个镜头和下一个镜头脸型可能完全对不上；说话人的音色前后不一致；更别提漫长的等待，改个细节还得从头再来一遍。而JoyAI-Echo的出现，彻底打破了这种局面。它不仅能生成最长5分钟的连续故事视频，角色身份、视觉形象和声音音色在整个过程中保持高度一致；更让人惊喜的是，它还支持用自然语言进行局部修改，不用重跑整条视频。今天，我们来深入了解一下这个来自京东Joy Future Academy的硬核项目。 ## 项目介绍 JoyAI-Echo是京东Joy Future Academy发布的长音视频生成框架，专为分钟级多镜头故事生成设计。项目的核心目标非常明确：让AI长视频生成从“开盲盒”变成“所想即所得”。为了实现这一目标，团队提出了四项关键技术创新，逐一攻克了行业长期存在的难题。目前，JoyAI-Echo已经在GitHub和Hugging Face全面开放，开发者和创作者可以免费体验和二次开发。项目还提供了ComfyUI节点集成，让非技术用户也能轻松上手。 ## 核心亮点 ### 1、5分钟长视频，角色不崩、声音不飘 JoyAI-Echo最让人震撼的能力，是能生成长达5分钟的连续故事视频，并且在整段视频中，角色身份、视觉形象和声音音色都能保持高度一致。秘密武器就在于它内置的“跨模态音视频记忆库”。框架通过Slot-Paired机制将视觉记忆与音频记忆绑定存储，在多镜头生成过程中，记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系。这就像导演手中拿着角色的“完整档案”，每一帧都严格参照执行。 ### 2、7.5倍速度提升传统长视频生成的等待时间，有时真能把人的耐心消磨殆尽。几分钟、半小时……甚至更久。 JoyAI-Echo通过记忆驱动后训练与Distribution Matching Distillation（DMD）技术，实现了约7.5倍的推理加速。研发团队创新性地提出一套记忆驱动的后训练流程，结合监督微调（SFT）、跨模态RLHF及DMD技术。其中，DMD将原本的多步扩散推理压缩为少步推理，在保持生成质量的同时大幅提升速度——简单说，就是从“等得花都谢了”到“瞬间出片”的跨越。 ### 3、对话式编辑，局部修改不用重跑整条视频 JoyAI-Echo不再是“输入提示词，一次性出结果”的传统工具。它引入了一个智能“导演助理”——Director Agent，让长视频第一次实现了“对话式编辑”。你用自然语言说出需求，它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意？直接用对话告诉它修改。它只重新生成有问题的局部镜头，完全不用重跑整条视频。这种体验，就像你真的有一个随叫随到的副导演在协助你。 ### 4、720p实时超分到2K高清为了满足专业内容生产的需求，JoyAI-Echo还配套了专门的实时超分模块，支持两档分辨率提升：736×1280 → 1152×1920，以及736×1280 → 1472×2560。模块通过单步超分就能生成高分辨率视频和精细化音频，即使在流式延迟的约束下，也能保持稳定的高清表现。这意味着，生成的视频可以直接用于专业内容生产，而不仅仅是停留在“看看效果”的阶段。 ## 快速上手 ### 1. 克隆仓库 ```ja vascript git clone https://github.com/jd-opensource/JoyAI-Echo.git cd JoyAI-Echo ``` ### 2. 创建环境参考环境是Python 3.11、PyTorch 2.8、CUDA 12.8。使用conda： ```ja vascript conda env create -f environment.yml conda activate echo-long ``` 或使用uv： ```ja vascript uv venv --python 3.11 .venv source .venv/bin/activate uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt ``` 注意：ffmpeg必须在PATH中可用（用于镜头拼接）。conda配方已包含它。如果你使用uv，请用系统包管理器安装： ```ja vascript # Ubuntu/Debian sudo apt install ffmpeg # macOS brew install ffmpeg ``` ### 3. 下载权重下载JoyAI-Echo发布检查点和Gemma文本编码器： | 文件 | 描述 | 大小 | 链接 | |---|---|---|---| | echo-longvideo-release.safetensors | 完整模型（transformer + VAE + vocoder） | ~46 GB | JoyAI-Echo | | gemma-3-12b/ | 指令微调模型（文本编码器） | ~24 GB | gemma-3-12b-it | 将它们放在`checkpoints/`目录下： ```ja vascript checkpoints/ ├── echo-longvideo-release.safetensors └── gemma-3-12b/ ``` ### 4. 编写故事提示词这里有一个小技巧：**强烈建议先使用项目提供的提示词增强器**。系统提示词可以将简短的故事或想法扩展为结构良好的镜头提示词： - `prompts/long_story_writer_system_prompt.md`：用于长、多镜头视频 - `prompts/short_story_writer_system_prompt.md`：用于单镜头短视频在`prompts/`下创建一个JSON文件。每个文件是一个单个对象，包含`prompts`列表，其中每个字符串是一个完整镜头。单个字符串产生一个镜头；多个字符串产生多镜头故事，每个新镜头通过配对音视频记忆库以之前的镜头为条件。在每个字符串中，按顺序编写这些部分： | 部分 | 描述内容 | |---|---| | 角色与主体 | 描述所有可见人物的外观，包括年龄、体型、发型、面部、服装，以及适用时的说话音色 | | 动作与对话 | 主体做什么和说什么 | | 风格 | 整体视觉和情感美学——例如，现实赛车电影语言、凉爽日光、克制的电影张力 | | 镜头运动 | 镜头类型和构图或运动——例如，面部稳定特写，或腰部以上的中景 | | 背景 | 主体背后的设置和场景细节 | | 音效与BGM | 场景中的声音和背景音乐——例如，房间音调、风、脚步声和织物，对话下有柔和的低音音乐床或无背景音乐 | ### 5. 运行推理 ```ja vascript python inference.py ``` 这会加载模型一次，并处理`prompts/`下的所有提示文件。注意：推理管道针对低VRAM GPU进行了优化。默认设置（25 fps × 241帧 × 1280 × 736）下，峰值GPU使用量约为46–50 GB，代价是每镜头推理时间稍长。 ## 写在最后 JoyAI-Echo的推出，标志着京东在长视频生成领域实现了一次重大突破。它用四项实打实的技术创新，彻底打破了长视频生成的“三角问题”： 1. 跨模态音视频记忆库解决了角色变脸问题 2. DMD蒸馏技术实现了7.5倍速度提升 3. Director Agent带来了对话式编辑体验 4. 轻量化实时超分保证了高清输出质量你可以像聊天一样，持续创作、修改和完善长视频内容，让高一致性、高画质、可交互的视频生成，真正走进每一个内容创作者的工作流。目前，JoyAI-Echo的代码和权重已全部开源。如果你对长视频生成感兴趣，不妨去GitHub亲自体验一下。 GitHub：https://github.com/jd-opensource/JoyAI-Echo

京东开源JoyAI-Echo：长视频角色一致对话式编辑工具推荐

相关阅读

最新教程

最新资讯