京东开源 JoyAI-Echo 框架 — 长视频生成「所想即所得」时代到来

AI 视频生成这两年卷得很厉害，Sora、Runway Gen-4、可灵、Vidu……但老实说，它们有个共同的尴尬：生个 5 秒、10 秒的单镜头还行，一旦想做个几钟头的短视频故事，角色就崩了、声音就变了、生成也要等半天。

6 月 3 号京东开源了个叫 JoyAI-Echo 的框架，专门干长视频的。官方号称解决「角色易崩、声音乱变、生成缓慢」三大难题，还说进入全球第一梯队。

我看了看技术细节和评测数据，确实有东西。

JoyAI-Echo 是什么

京东开源的 长音视频生成框架，核心能力就是一件事：生成最长 5 分钟的多镜头连贯视频故事，角色不崩、声音不乱。

它做的事情很具体：

第一，跨模态音视频记忆库。 多镜头生成时持续保存角色的长相和说话人的音色。5 分钟的视频里，A 角色的形象和声音从头到尾不会变。

第二，Director Agent 导演助理。 你自然语言说需求，它自动拆成剧本、角色、场景、镜头清单。不用手动分镜。

第三，对话式编辑。 改一个镜头不用重跑整条视频，直接说话改就行。

第四，推理加速。 DMD 技术带来约 7.5 倍速度提升。

核心数据

几个关键数字：

最长 5 分钟。 支持复杂叙事结构、多镜头连贯故事，而不仅仅是转瞬即逝的短视频。

7.5 倍加速。 DMD 蒸馏技术带来的推理加速，不用为了长视频等半天。

语音准确率 0.8646。 在团队构建的 100 个故事、3000 个镜头的评测集上，语音内容准确率领先同类模型。

两档超分。 736×1280 → 1152×1920 或 1472×2560，单步超分就能出高清。

核心技术

跨模态音视频记忆库。 这是 JoyAI-Echo 最具差异化的能力。多镜头生成过程中，角色外观和声音特征持续保存在记忆库里，不会出现「同一个人演着演着变成另一个人」的尴尬。

记忆驱动后训练流程。 结合了 SFT（监督微调）、跨模态 RLHF（人类反馈强化学习）和 DMD（Distribution Matching Distillation）三种技术。DMD 本身是个知识蒸馏方案——把大模型学到的分布压缩到推理路径上，质量不掉，速度飞升。

Director Agent。 内置的智能导演助理。你提需求「拍个程序员加班到崩溃第二天突然懂了的故事」，它自动出剧本、分镜头、定角色。这层 Agent 把「想法」到「成片」的距离缩短了一大截。

实时超分模块。 支持单步超分，在流式延迟约束下也能稳定输出高清画质。

怎么用

代码和权重已经全部开源，GitHub 上直接下：

git clone https://github.com/jd-opensource/JoyAI-Echo

项目主页：传送门

支持本地部署和二次开发。目前 Stars 不到 400（刚开源两天），属于早期。

不是没有槽点

刚开源，社区生态是零。 6 月 3 号才上线的项目，GitHub Stars 不到 400，没有社区插件、没有第三方集成、中文文档也还没跟上。用起来基本靠自己啃代码。

5 分钟限制对一部正经短片够用吗？ 5 分钟对一个短视频故事来说够了，但想做 10-15 分钟的短片，还是得拆成多段拼接。这个限制是模型架构决定的，短期很难突破。

硬件门槛不会低。 开源项目没有说明最低配置。长视频生成需要显存和显存带宽，普通消费级显卡大概率跑不动。想体验还得等官方出云 Demo。

京东出品的品牌认知问题。 说实话，提到京东大家想到的是物流和电商，不是 AI 视频生成。这个框架能不能在社区里建立口碑和持续维护，需要观望——大厂边缘开源项目养死的不在少数。

跟同类怎么比

Runway Gen-4 也做角色一致性，但它是个闭源 SaaS 产品，按分钟计价。JoyAI-Echo 开源免费，可以直接本地跑（如果硬件够的话），适合二次开发和定制。

可灵（Kling） 是快手出的视频生成模型，单镜头质量很强，但在多镜头叙事和长视频角色一致性上，JoyAI-Echo 的记忆库方案明显更有针对性。

开源视频生成领域， CogVideo 和 Open-Sora 是之前的代表，但它们侧重短镜头生成。JoyAI-Echo 填补了开源长视频 + 音视频同步这个细分方向。

一句话总结

京东这次的动作意外的扎实。JoyAI-Echo 不是跟风做短视频生成，而是切了「长视频 + 角色一致性 + 音视频同步」这个很少有人碰的方向。如果你是做 AI 视频工具开发或者想做故事型 AI 视频内容的，这个项目值得跟进。

GitHub：https://github.com/jd-opensource/JoyAI-Echo
项目主页：https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

京东开源 JoyAI-Echo 框架 — 长视频生成「所想即所得」时代到来

JoyAI-Echo 是什么

核心数据

核心技术

怎么用

不是没有槽点

跟同类怎么比

一句话总结

💬 评论区（0 条评论）

📤 分享这篇文章

📌 相关推荐

VideoAgent：一站式AI视频理解与编辑框架

TypeTale 字字动画：完全免费 AI 视频生成工具，短剧小说推文一站式出片

OpenMontage：全世界第一个开源智能视频制作系统

Seedance 2.0 Skill OS：堪称神仙级别的 AI 电影制作操作系统

SysMocap：开源虚拟主播动捕神器，摄像头就能做动作捕捉

OpenReel Video：开源版 CapCut，浏览器里剪 4K 视频还不上传服务器

JoyAI-Echo 是什么

核心数据

核心技术

怎么用

不是没有槽点

跟同类怎么比

一句话总结

💬 评论区 （0 条评论）

📤 分享这篇文章

📌 相关推荐

VideoAgent：一站式AI视频理解与编辑框架

TypeTale 字字动画：完全免费 AI 视频生成工具，短剧小说推文一站式出片

OpenMontage：全世界第一个开源智能视频制作系统

Seedance 2.0 Skill OS：堪称神仙级别的 AI 电影制作操作系统

SysMocap：开源虚拟主播动捕神器，摄像头就能做动作捕捉

OpenReel Video：开源版 CapCut，浏览器里剪 4K 视频还不上传服务器

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）