字节跳动 Lance:3B参数统一多模态模型,理解生成编辑一网打尽
📅 2026年05月22日 · 技术
让AI同时看懂图片、视频,还能创作和编辑
多模态大模型是当前人工智能领域的热门方向,但大多数模型要么专攻理解(如识别图片内容),要么专攻生成(如根据文字画图),很难在一套框架内同时做好这两件事。字节跳动最新开源的 Lance 模型,打破了这一界限——仅用 30 亿激活参数就实现了图像和视频的理解、生成与编辑三大功能于一体。
Lance 的核心能力
Lance 的全称是 "Unified Multimodal Modeling by Multi-Task Synergy",即通过多任务协同实现统一多模态建模。它基于 Transformer 架构从零训练(仅 ViT 和 VAE 编码器使用预训练权重),在 128 张 A100 GPU 的预算内完成了训练。
具体来说,Lance 支持以下能力:
- 文本生成视频:输入文字描述即可生成对应的视频内容,如"一只蝴蝶在花丛中飞舞"
- 视频编辑:对已有视频进行局部修改,支持多轮一致性编辑
- 文生图:从文字提示生成高质量图片
- 图片编辑:对图片中的元素进行替换或修改
- 视频理解:回答关于视频内容的问题,如"视频中有几个物体被抛起?"
- 图片理解:读图、识别车牌号码、分析图表数据等
技术亮点:小而强
与许多动辄数百亿甚至上千亿参数的多模态模型不同,Lance 只用了 3B 激活参数。这意味着它对硬件的要求更低,推理速度更快,部署成本也更友好。从论文公布的基准测试结果来看,Lance 在多项指标上达到了同参数量级模型的领先水平。
适合哪些人使用
- AI 研究者:研究多模态统一建模、多任务学习的同学可以基于 Lance 做进一步实验
- 内容创作者:需要 AI 辅助生成图片、视频的创作者,可利用 Lance 快速产出素材
- 开发者:想在自己的应用中集成多模态能力的程序员,可以基于 Lance 的模型权重做二次开发
如何上手
Lance 的代码和模型权重已开源在 GitHub 和 HuggingFace 上。你可以通过以下步骤开始使用:
- 访问 GitHub 仓库 克隆代码
- 从 HuggingFace 下载模型权重
- 查阅论文 arXiv:2605.18678 了解技术细节
- 官方项目主页 lance-project.github.io 提供更多演示视频
参考来源
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具