字节跳动 Lance：3B参数统一多模态模型，理解生成编辑一网打尽

📅 2026年05月22日 · 技术

让AI同时看懂图片、视频，还能创作和编辑

多模态大模型是当前人工智能领域的热门方向，但大多数模型要么专攻理解（如识别图片内容），要么专攻生成（如根据文字画图），很难在一套框架内同时做好这两件事。字节跳动最新开源的 Lance 模型，打破了这一界限——仅用 30 亿激活参数就实现了图像和视频的理解、生成与编辑三大功能于一体。

Lance 的核心能力

Lance 的全称是 "Unified Multimodal Modeling by Multi-Task Synergy"，即通过多任务协同实现统一多模态建模。它基于 Transformer 架构从零训练（仅 ViT 和 VAE 编码器使用预训练权重），在 128 张 A100 GPU 的预算内完成了训练。

具体来说，Lance 支持以下能力：

文本生成视频：输入文字描述即可生成对应的视频内容，如"一只蝴蝶在花丛中飞舞"
视频编辑：对已有视频进行局部修改，支持多轮一致性编辑
文生图：从文字提示生成高质量图片
图片编辑：对图片中的元素进行替换或修改
视频理解：回答关于视频内容的问题，如"视频中有几个物体被抛起？"
图片理解：读图、识别车牌号码、分析图表数据等

技术亮点：小而强

与许多动辄数百亿甚至上千亿参数的多模态模型不同，Lance 只用了 3B 激活参数。这意味着它对硬件的要求更低，推理速度更快，部署成本也更友好。从论文公布的基准测试结果来看，Lance 在多项指标上达到了同参数量级模型的领先水平。

适合哪些人使用

AI 研究者：研究多模态统一建模、多任务学习的同学可以基于 Lance 做进一步实验
内容创作者：需要 AI 辅助生成图片、视频的创作者，可利用 Lance 快速产出素材
开发者：想在自己的应用中集成多模态能力的程序员，可以基于 Lance 的模型权重做二次开发

如何上手

Lance 的代码和模型权重已开源在 GitHub 和 HuggingFace 上。你可以通过以下步骤开始使用：

访问 GitHub 仓库克隆代码
从 HuggingFace 下载模型权重
查阅论文 arXiv:2605.18678 了解技术细节
官方项目主页 lance-project.github.io 提供更多演示视频

参考来源

bytedance/Lance — GitHub