字节跳动 Lance:3B参数统一多模态模型,理解生成编辑一网打尽

📅 2026年05月22日 · 技术

让AI同时看懂图片、视频,还能创作和编辑

多模态大模型是当前人工智能领域的热门方向,但大多数模型要么专攻理解(如识别图片内容),要么专攻生成(如根据文字画图),很难在一套框架内同时做好这两件事。字节跳动最新开源的 Lance 模型,打破了这一界限——仅用 30 亿激活参数就实现了图像和视频的理解、生成与编辑三大功能于一体。

Lance 的核心能力

Lance 的全称是 "Unified Multimodal Modeling by Multi-Task Synergy",即通过多任务协同实现统一多模态建模。它基于 Transformer 架构从零训练(仅 ViT 和 VAE 编码器使用预训练权重),在 128 张 A100 GPU 的预算内完成了训练。

具体来说,Lance 支持以下能力:

技术亮点:小而强

与许多动辄数百亿甚至上千亿参数的多模态模型不同,Lance 只用了 3B 激活参数。这意味着它对硬件的要求更低,推理速度更快,部署成本也更友好。从论文公布的基准测试结果来看,Lance 在多项指标上达到了同参数量级模型的领先水平。

适合哪些人使用

如何上手

Lance 的代码和模型权重已开源在 GitHub 和 HuggingFace 上。你可以通过以下步骤开始使用:

参考来源

🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具