AI 视频生成这两年卷得很厉害,Sora、Runway Gen-4、可灵、Vidu……但老实说,它们有个共同的尴尬:生个 5 秒、10 秒的单镜头还行,一旦想做个几钟头的短视频故事,角色就崩了、声音就变了、生成也要等半天。
6 月 3 号京东开源了个叫 JoyAI-Echo 的框架,专门干长视频的。官方号称解决「角色易崩、声音乱变、生成缓慢」三大难题,还说进入全球第一梯队。
我看了看技术细节和评测数据,确实有东西。
JoyAI-Echo 是什么
京东开源的 长音视频生成框架,核心能力就是一件事:生成最长 5 分钟的多镜头连贯视频故事,角色不崩、声音不乱。
它做的事情很具体:
第一,跨模态音视频记忆库。 多镜头生成时持续保存角色的长相和说话人的音色。5 分钟的视频里,A 角色的形象和声音从头到尾不会变。
第二,Director Agent 导演助理。 你自然语言说需求,它自动拆成剧本、角色、场景、镜头清单。不用手动分镜。
第三,对话式编辑。 改一个镜头不用重跑整条视频,直接说话改就行。
第四,推理加速。 DMD 技术带来约 7.5 倍速度提升。
核心数据
几个关键数字:
最长 5 分钟。 支持复杂叙事结构、多镜头连贯故事,而不仅仅是转瞬即逝的短视频。
7.5 倍加速。 DMD 蒸馏技术带来的推理加速,不用为了长视频等半天。
语音准确率 0.8646。 在团队构建的 100 个故事、3000 个镜头的评测集上,语音内容准确率领先同类模型。
两档超分。 736×1280 → 1152×1920 或 1472×2560,单步超分就能出高清。
核心技术
跨模态音视频记忆库。 这是 JoyAI-Echo 最具差异化的能力。多镜头生成过程中,角色外观和声音特征持续保存在记忆库里,不会出现「同一个人演着演着变成另一个人」的尴尬。
记忆驱动后训练流程。 结合了 SFT(监督微调)、跨模态 RLHF(人类反馈强化学习)和 DMD(Distribution Matching Distillation)三种技术。DMD 本身是个知识蒸馏方案——把大模型学到的分布压缩到推理路径上,质量不掉,速度飞升。
Director Agent。 内置的智能导演助理。你提需求「拍个程序员加班到崩溃第二天突然懂了的故事」,它自动出剧本、分镜头、定角色。这层 Agent 把「想法」到「成片」的距离缩短了一大截。
实时超分模块。 支持单步超分,在流式延迟约束下也能稳定输出高清画质。
怎么用
代码和权重已经全部开源,GitHub 上直接下:
git clone https://github.com/jd-opensource/JoyAI-Echo
项目主页:传送门
支持本地部署和二次开发。目前 Stars 不到 400(刚开源两天),属于早期。
不是没有槽点
刚开源,社区生态是零。 6 月 3 号才上线的项目,GitHub Stars 不到 400,没有社区插件、没有第三方集成、中文文档也还没跟上。用起来基本靠自己啃代码。
5 分钟限制对一部正经短片够用吗? 5 分钟对一个短视频故事来说够了,但想做 10-15 分钟的短片,还是得拆成多段拼接。这个限制是模型架构决定的,短期很难突破。
硬件门槛不会低。 开源项目没有说明最低配置。长视频生成需要显存和显存带宽,普通消费级显卡大概率跑不动。想体验还得等官方出云 Demo。
京东出品的品牌认知问题。 说实话,提到京东大家想到的是物流和电商,不是 AI 视频生成。这个框架能不能在社区里建立口碑和持续维护,需要观望——大厂边缘开源项目养死的不在少数。
跟同类怎么比
Runway Gen-4 也做角色一致性,但它是个闭源 SaaS 产品,按分钟计价。JoyAI-Echo 开源免费,可以直接本地跑(如果硬件够的话),适合二次开发和定制。
可灵(Kling) 是快手出的视频生成模型,单镜头质量很强,但在多镜头叙事和长视频角色一致性上,JoyAI-Echo 的记忆库方案明显更有针对性。
开源视频生成领域, CogVideo 和 Open-Sora 是之前的代表,但它们侧重短镜头生成。JoyAI-Echo 填补了开源长视频 + 音视频同步这个细分方向。
一句话总结
京东这次的动作意外的扎实。JoyAI-Echo 不是跟风做短视频生成,而是切了「长视频 + 角色一致性 + 音视频同步」这个很少有人碰的方向。如果你是做 AI 视频工具开发或者想做故事型 AI 视频内容的,这个项目值得跟进。
GitHub:https://github.com/jd-opensource/JoyAI-Echo
项目主页:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/