VGGT-Ω：Meta AI 与牛津大学联手打造的 CVPR 2026 Oral 视觉几何模型

📅 2026年05月18日 · 技术

VGGT-Ω：Meta AI 与牛津大学联手打造的 CVPR 2026 Oral 视觉几何模型

引言

计算机视觉领域一直在寻找一种通用的方法，能从多张 2D 图像中直接推理出场景的 3D 结构——包括相机位姿、深度图等。2026 年 CVPR 上，来自牛津大学 VGG 实验室和 Meta AI 的研究团队以 Oral 论文形式发布了 VGGT-Ω，一个基于 Transformer 的 10 亿参数大规模视觉几何模型，用统一的前馈网络架构将相机标定、深度估计和图像配准集成到了单次推理中。

项目介绍

VGGT-Ω（VGGT-Omega）继承并扩展了前作 VGGT 的核心思想，采用 纯视觉 Transformer 架构，参数量达到 10 亿级别。与传统的 SfM（Structure from Motion）流水线不同，VGGT-Ω 不需要显式的特征匹配或迭代优化——它直接从输入的多视角图像中端到端地预测相机内外参数和深度图。

项目由 Jianyuan Wang、Minghao Chen 等研究人员共同完成，论文已发布在 arXiv（2605.15195），并提供了完整的 PyTorch 实现和预训练模型。你可以通过 Hugging Face 在线 Demo 体验，也可以在本地部署使用。

核心特性

1. 端到端前馈推理

传统 SfM 需要多阶段处理：特征提取 → 匹配 → 几何验证 → 增量重建 → 全局优化。VGGT-Ω 用一个 Transformer 模型替代了这整套流水线。输入 N 张图像，直接输出每张图像的相机外参、内参和深度图，无需任何迭代步骤。

2. 10 亿参数 · 灵活分辨率

团队提供了两个预训练模型：

VGGT-Omega-1B-512（512 分辨率，纯视觉推理）
VGGT-Omega-1B-256-Text-Alignment（256 分辨率，支持文本对齐嵌入）

文本对齐版本可以产生与文本描述对应的视觉特征，为多模态下游任务打开空间。

3. 出色的 GPU 内存效率

在 A100 GPU 上使用 624×416 输入时，1 张图像仅需 6 GB 显存，100 张图像约 13 GB，甚至 500 张图像也只需 43 GB——对于 10 亿参数模型来说，这个内存曲线相当平缓。

4. 交互式 Gradio Demo

项目提供了一个 Gradio 交互 Demo，支持上传多张图片或视频，实时运行相机和深度推理，并将结果可视化为 3D 点云和相机位姿的 GLB 场景。一键部署，效果直观。

适用人群

计算机视觉研究者：探索大规模视觉几何模型的前沿方向
3D 重建工程师：评估端到端方法替代传统 SfM 管线的可行性
AR/VR 开发者：利用高精度相机位姿和深度信息构建沉浸式体验
机器人感知团队：在多视角场景理解中应用前馈几何推理

快速上手

安装非常简单，一行代码即可开始在本地运行推理：

git clone [email protected]:facebookresearch/vggt-omega.git
cd vggt-omega
pip install -r requirements.txt
pip install -e .

# Python 推理示例
import torch
from vggt_omega.models import VGGTOmega
from vggt_omega.utils.load_fn import load_and_preprocess_images
from vggt_omega.utils.pose_enc import encoding_to_camera

model = VGGTOmega().to("cuda").eval()
model.load_state_dict(torch.load("path/to/vggt_omega_1b_512.pt"))
images = load_and_preprocess_images(["imgA.png", "imgB.png"], image_resolution=512).to("cuda")

with torch.inference_mode():
    predictions = model(images)

extrinsics, intrinsics = encoding_to_camera(predictions["pose_enc"], predictions["images"].shape[-2:])
depth = predictions["depth"]

预训练模型需要从 Hugging Face 申请访问。如果想快速体验效果，可以访问官方的 Hugging Face Spaces Demo，无需下载模型即可在线试用。

总结

VGGT-Ω 代表了视觉几何领域的一个重要趋势：用大规模 Transformer 模型替代传统多阶段 SfM 流水线。10 亿参数的前馈网络在单次推理中同时输出相机位姿和深度，这不仅是学术上的突破（CVPR 2026 Oral），也为 3D 视觉的工业应用带来了新的可能性。从一个预训练模型出发，几乎零配置就能完成多视图几何推理——这对于推动 3D 视觉走向通用化具有重要意义。

VGGT-Ω：Meta AI 与牛津大学联手打造的 CVPR 2026 Oral 视觉几何模型