VGGT-Ω:Meta AI 与牛津大学联手打造的 CVPR 2026 Oral 视觉几何模型

📅 2026年05月18日 · 技术

VGGT-Ω:Meta AI 与牛津大学联手打造的 CVPR 2026 Oral 视觉几何模型

引言

计算机视觉领域一直在寻找一种通用的方法,能从多张 2D 图像中直接推理出场景的 3D 结构——包括相机位姿、深度图等。2026 年 CVPR 上,来自牛津大学 VGG 实验室和 Meta AI 的研究团队以 Oral 论文形式发布了 VGGT-Ω,一个基于 Transformer 的 10 亿参数大规模视觉几何模型,用统一的前馈网络架构将相机标定、深度估计和图像配准集成到了单次推理中。

项目介绍

VGGT-Ω(VGGT-Omega)继承并扩展了前作 VGGT 的核心思想,采用 纯视觉 Transformer 架构,参数量达到 10 亿级别。与传统的 SfM(Structure from Motion)流水线不同,VGGT-Ω 不需要显式的特征匹配或迭代优化——它直接从输入的多视角图像中端到端地预测相机内外参数和深度图。

项目由 Jianyuan Wang、Minghao Chen 等研究人员共同完成,论文已发布在 arXiv(2605.15195),并提供了完整的 PyTorch 实现和预训练模型。你可以通过 Hugging Face 在线 Demo 体验,也可以在本地部署使用。

核心特性

1. 端到端前馈推理

传统 SfM 需要多阶段处理:特征提取 → 匹配 → 几何验证 → 增量重建 → 全局优化。VGGT-Ω 用一个 Transformer 模型替代了这整套流水线。输入 N 张图像,直接输出每张图像的相机外参、内参和深度图,无需任何迭代步骤。

2. 10 亿参数 · 灵活分辨率

团队提供了两个预训练模型:

  • VGGT-Omega-1B-512(512 分辨率,纯视觉推理)
  • VGGT-Omega-1B-256-Text-Alignment(256 分辨率,支持文本对齐嵌入)

文本对齐版本可以产生与文本描述对应的视觉特征,为多模态下游任务打开空间。

3. 出色的 GPU 内存效率

在 A100 GPU 上使用 624×416 输入时,1 张图像仅需 6 GB 显存,100 张图像约 13 GB,甚至 500 张图像也只需 43 GB——对于 10 亿参数模型来说,这个内存曲线相当平缓。

4. 交互式 Gradio Demo

项目提供了一个 Gradio 交互 Demo,支持上传多张图片或视频,实时运行相机和深度推理,并将结果可视化为 3D 点云和相机位姿的 GLB 场景。一键部署,效果直观。

适用人群

  • 计算机视觉研究者:探索大规模视觉几何模型的前沿方向
  • 3D 重建工程师:评估端到端方法替代传统 SfM 管线的可行性
  • AR/VR 开发者:利用高精度相机位姿和深度信息构建沉浸式体验
  • 机器人感知团队:在多视角场景理解中应用前馈几何推理

快速上手

安装非常简单,一行代码即可开始在本地运行推理:

git clone [email protected]:facebookresearch/vggt-omega.git
cd vggt-omega
pip install -r requirements.txt
pip install -e .

# Python 推理示例
import torch
from vggt_omega.models import VGGTOmega
from vggt_omega.utils.load_fn import load_and_preprocess_images
from vggt_omega.utils.pose_enc import encoding_to_camera

model = VGGTOmega().to("cuda").eval()
model.load_state_dict(torch.load("path/to/vggt_omega_1b_512.pt"))
images = load_and_preprocess_images(["imgA.png", "imgB.png"], image_resolution=512).to("cuda")

with torch.inference_mode():
    predictions = model(images)

extrinsics, intrinsics = encoding_to_camera(predictions["pose_enc"], predictions["images"].shape[-2:])
depth = predictions["depth"]

预训练模型需要从 Hugging Face 申请访问。如果想快速体验效果,可以访问官方的 Hugging Face Spaces Demo,无需下载模型即可在线试用。

总结

VGGT-Ω 代表了视觉几何领域的一个重要趋势:用大规模 Transformer 模型替代传统多阶段 SfM 流水线。10 亿参数的前馈网络在单次推理中同时输出相机位姿和深度,这不仅是学术上的突破(CVPR 2026 Oral),也为 3D 视觉的工业应用带来了新的可能性。从一个预训练模型出发,几乎零配置就能完成多视图几何推理——这对于推动 3D 视觉走向通用化具有重要意义。

参考来源

🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具