JoyAI-Echo:京东开源分钟级AI长视频生成框架
📅 2026年06月06日 · 技术
分钟级多镜头长视频生成
京东开源的 JoyAI-Echo 是一个突破性的长视频生成框架,能够在一分钟内生成连贯的多镜头故事视频,并同步生成对应的音频。这项技术解决了传统长视频生成面临的三大难题:误差累积、时间一致性弱、以及生成延迟过高。
核心技术亮点
JoyAI-Echo 的核心在于跨模态记忆库。这套机制能够持续保存角色外观和声音特质,确保在五分钟长的视频中,人物形象和声音始终保持一致。这对于叙事性视频创作至关重要——观众不会再看到主角在镜头切换后突然"变了脸"。
另一个关键创新是分布匹配蒸馏技术。通过这个后训练流程,生成速度提升了7.5倍,大幅降低了延迟,让分钟级长视频的生成成为可能。
实际表现
根据京东公布的测试数据,JoyAI-Echo 在多项指标上超越现有方案:
- 长视频视觉美感评分达 63.6%,优于 HappyOyster 的 27.6%
- 音频质量评分高达 81.7%
- 提示词跟随能力评分 80.6%
- IP一致性评分 59.4%
在短视频任务上,JoyAI-Echo 甚至超越了专注于短视频的 Wan 2.6 模型。
开源与应用场景
项目已在 GitHub 开源推理代码和模型权重,支持文本到视频和多镜头长视频生成。配合交互式编辑功能,用户可以通过对话式指令实时修改生成的视频内容。
对于影视创作者、广告制作团队、以及需要批量生产视频内容的团队,这是一个值得关注的国产开源方案。京东还计划在后续版本中加入图像到视频的支持。
参考来源
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具