JoyAI-Echo:京东开源分钟级AI长视频生成框架

📅 2026年06月06日 · 技术

JoyAI-Echo封面

分钟级多镜头长视频生成

京东开源的 JoyAI-Echo 是一个突破性的长视频生成框架,能够在一分钟内生成连贯的多镜头故事视频,并同步生成对应的音频。这项技术解决了传统长视频生成面临的三大难题:误差累积、时间一致性弱、以及生成延迟过高。

核心技术亮点

JoyAI-Echo 的核心在于跨模态记忆库。这套机制能够持续保存角色外观和声音特质,确保在五分钟长的视频中,人物形象和声音始终保持一致。这对于叙事性视频创作至关重要——观众不会再看到主角在镜头切换后突然"变了脸"。

另一个关键创新是分布匹配蒸馏技术。通过这个后训练流程,生成速度提升了7.5倍,大幅降低了延迟,让分钟级长视频的生成成为可能。

实际表现

根据京东公布的测试数据,JoyAI-Echo 在多项指标上超越现有方案:

在短视频任务上,JoyAI-Echo 甚至超越了专注于短视频的 Wan 2.6 模型。

开源与应用场景

项目已在 GitHub 开源推理代码和模型权重,支持文本到视频和多镜头长视频生成。配合交互式编辑功能,用户可以通过对话式指令实时修改生成的视频内容。

对于影视创作者、广告制作团队、以及需要批量生产视频内容的团队,这是一个值得关注的国产开源方案。京东还计划在后续版本中加入图像到视频的支持。

参考来源

🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具