VGGT-Ω:Meta AI 与牛津大学联手打造的 CVPR 2026 Oral 视觉几何模型
📅 2026年05月18日 · 技术
VGGT-Ω:Meta AI 与牛津大学联手打造的 CVPR 2026 Oral 视觉几何模型
引言
计算机视觉领域一直在寻找一种通用的方法,能从多张 2D 图像中直接推理出场景的 3D 结构——包括相机位姿、深度图等。2026 年 CVPR 上,来自牛津大学 VGG 实验室和 Meta AI 的研究团队以 Oral 论文形式发布了 VGGT-Ω,一个基于 Transformer 的 10 亿参数大规模视觉几何模型,用统一的前馈网络架构将相机标定、深度估计和图像配准集成到了单次推理中。
项目介绍
VGGT-Ω(VGGT-Omega)继承并扩展了前作 VGGT 的核心思想,采用 纯视觉 Transformer 架构,参数量达到 10 亿级别。与传统的 SfM(Structure from Motion)流水线不同,VGGT-Ω 不需要显式的特征匹配或迭代优化——它直接从输入的多视角图像中端到端地预测相机内外参数和深度图。
项目由 Jianyuan Wang、Minghao Chen 等研究人员共同完成,论文已发布在 arXiv(2605.15195),并提供了完整的 PyTorch 实现和预训练模型。你可以通过 Hugging Face 在线 Demo 体验,也可以在本地部署使用。
核心特性
1. 端到端前馈推理
传统 SfM 需要多阶段处理:特征提取 → 匹配 → 几何验证 → 增量重建 → 全局优化。VGGT-Ω 用一个 Transformer 模型替代了这整套流水线。输入 N 张图像,直接输出每张图像的相机外参、内参和深度图,无需任何迭代步骤。
2. 10 亿参数 · 灵活分辨率
团队提供了两个预训练模型:
- VGGT-Omega-1B-512(512 分辨率,纯视觉推理)
- VGGT-Omega-1B-256-Text-Alignment(256 分辨率,支持文本对齐嵌入)
文本对齐版本可以产生与文本描述对应的视觉特征,为多模态下游任务打开空间。
3. 出色的 GPU 内存效率
在 A100 GPU 上使用 624×416 输入时,1 张图像仅需 6 GB 显存,100 张图像约 13 GB,甚至 500 张图像也只需 43 GB——对于 10 亿参数模型来说,这个内存曲线相当平缓。
4. 交互式 Gradio Demo
项目提供了一个 Gradio 交互 Demo,支持上传多张图片或视频,实时运行相机和深度推理,并将结果可视化为 3D 点云和相机位姿的 GLB 场景。一键部署,效果直观。
适用人群
- 计算机视觉研究者:探索大规模视觉几何模型的前沿方向
- 3D 重建工程师:评估端到端方法替代传统 SfM 管线的可行性
- AR/VR 开发者:利用高精度相机位姿和深度信息构建沉浸式体验
- 机器人感知团队:在多视角场景理解中应用前馈几何推理
快速上手
安装非常简单,一行代码即可开始在本地运行推理:
git clone [email protected]:facebookresearch/vggt-omega.git
cd vggt-omega
pip install -r requirements.txt
pip install -e .
# Python 推理示例
import torch
from vggt_omega.models import VGGTOmega
from vggt_omega.utils.load_fn import load_and_preprocess_images
from vggt_omega.utils.pose_enc import encoding_to_camera
model = VGGTOmega().to("cuda").eval()
model.load_state_dict(torch.load("path/to/vggt_omega_1b_512.pt"))
images = load_and_preprocess_images(["imgA.png", "imgB.png"], image_resolution=512).to("cuda")
with torch.inference_mode():
predictions = model(images)
extrinsics, intrinsics = encoding_to_camera(predictions["pose_enc"], predictions["images"].shape[-2:])
depth = predictions["depth"]
预训练模型需要从 Hugging Face 申请访问。如果想快速体验效果,可以访问官方的 Hugging Face Spaces Demo,无需下载模型即可在线试用。
总结
VGGT-Ω 代表了视觉几何领域的一个重要趋势:用大规模 Transformer 模型替代传统多阶段 SfM 流水线。10 亿参数的前馈网络在单次推理中同时输出相机位姿和深度,这不仅是学术上的突破(CVPR 2026 Oral),也为 3D 视觉的工业应用带来了新的可能性。从一个预训练模型出发,几乎零配置就能完成多视图几何推理——这对于推动 3D 视觉走向通用化具有重要意义。