reloc3r-512开源相机姿态估计模型 - 简洁高效精准估算相机姿态

首页

Reloc3r 512

由 siyan824 开发

Reloc3r是一个简洁高效的相机姿态估计框架，结合了预训练的双视角相对相机姿态回归网络与多视角运动平均模块。

姿态估计

Safetensors

#双视角姿态回归 #多视角运动平均 #实时视觉定位

下载量 840

发布时间 : 1/6/2025

模型简介

Reloc3r是一个用于相机姿态估计的深度学习模型，能够实现通用、快速且精准的视觉定位。它通过大规模训练（约800万组带姿态图像对）展现出惊人的性能与泛化能力，可实时生成高质量的相机姿态估计。

模型特点

高效实时

能够在RTX 4090上达到40 FPS的推理速度，支持实时相机姿态估计。

大规模训练

在约800万组带姿态图像对上训练，具有出色的泛化能力。

多视角支持

结合双视角相对姿态回归和多视角运动平均模块，提高姿态估计精度。

野外适用性

在自采集图像/视频上表现出色，适用于各种实际场景。

模型能力

相对相机姿态估计

绝对相机姿态估计

视觉定位

图像对姿态回归

视频帧姿态估计

使用案例

增强现实

AR场景定位

在增强现实应用中快速准确地确定设备位置和朝向

实时生成高质量的相机姿态估计

机器人导航

自主机器人定位

帮助机器人在未知环境中确定自身位置

高精度的视觉定位能力

三维重建

多视角三维重建

为三维重建提供准确的相机姿态信息

提高重建质量和精度

🚀 Reloc3r：用于可泛化、快速且准确视觉定位的相对相机位姿回归大规模训练

Reloc3r 是一个简单而有效的相机位姿估计框架，它将预训练的两视图相对相机位姿回归网络与多视图运动平均模块相结合。该框架在约 800 万个带位姿的图像对上进行训练，实现了惊人的性能和泛化能力，能够实时产生高质量的相机位姿估计。

项目图示

🚀 快速开始

本项目提供了相机位姿估计的相关功能，下面将介绍如何安装、使用、评估和训练该项目。

📦 安装指南

1. 克隆 Reloc3r 仓库

git clone --recursive https://github.com/ffrivera0/reloc3r.git
cd reloc3r
# 如果你已经克隆了 reloc3r
# git submodule update --init --recursive

2. 使用 conda 创建环境

conda create -n reloc3r python=3.11 cmake=3.14.0
conda activate reloc3r 
conda install pytorch torchvision pytorch-cuda=12.1 -c pytorch -c nvidia  # 为你的系统使用正确的 cuda 版本
pip install -r requirements.txt
# 可选：你也可以安装额外的包来支持 HEIC 图像
pip install -r requirements_optional.txt

3. 可选：编译 RoPE 的 CUDA 内核

# Reloc3r 依赖于 RoPE 位置嵌入，你可以编译一些 CUDA 内核以加快运行时间
cd croco/models/curope/
python setup.py build_ext --inplace
cd ../../../

4. 可选：下载预训练模型

下载 Reloc3r-224 / Reloc3r-512 的检查点。运行下面的评估和演示代码时，预训练模型权重将自动下载。

💻 使用示例

相对位姿估计

使用 Reloc3r 可以估计你拍摄的图像和视频的相机位姿。对于相对位姿估计，尝试 wild_relpose.py 中的演示代码。我们提供了一些图像对用于演示。

# 用你的路径替换参数
python wild_relpose.py --v1_path ./data/wild_images/zurich0.jpg --v2_path ./data/wild_images/zurich1.jpg --output_folder ./data/wild_images/

可视化相对位姿

# 用你的路径替换参数
python visualization.py --mode relpose --pose_path ./data/wild_images/pose2to1.txt

视觉定位

对于视觉定位，wild_visloc.py 中的演示代码从自拍视频的采样帧中估计绝对相机位姿。

⚠️ 重要提示

该演示简单地使用第一帧和最后一帧作为数据库，这要求所有图像之间有重叠区域。此演示不支持线性运动。我们提供了一些视频作为示例。

# 用你的路径替换参数
python wild_visloc.py --video_path ./data/wild_video/ids.MOV --output_folder ./data/wild_video

可视化绝对位姿

# 用你的路径替换参数
python visualization.py --mode visloc --pose_folder ./data/wild_video/ids_poses/

📚 详细文档

相对相机位姿估计评估

要复现我们在 ScanNet1500 和 MegaDepth1500 上的评估，从这里下载数据集并解压到 ./data/。然后运行以下脚本，你将获得与我们论文中相似的结果。

bash scripts/eval_relpose.sh

💡 使用建议

要实现更快的推理速度，设置 --amp=1。这将启用 fp16 评估，在使用 Reloc3r-512 的 RTX 4090 上，速度将从 24 FPS 提高到 40 FPS，且不会损失任何精度。

视觉定位评估

要复现我们在 Cambridge 上的评估，从这里下载数据集并解压到 ./data/cambridge/。然后运行以下脚本，你将获得与我们论文中相似的结果。

bash scripts/eval_visloc.sh

训练

我们遵循 DUSt3R 来处理训练数据。下载数据集：CO3Dv2、ScanNet++、ARKitScenes、BlendedMVS、MegaDepth、DL3DV、RealEstate10K。

对于每个数据集，我们在 datasets_preprocess 目录中提供了一个预处理脚本，并在需要时提供了一个包含图像对列表的存档。你必须从官方来源自己下载数据集，同意其许可协议，并运行预处理脚本。

我们提供了一个在 RTX 3090 GPU 上使用 ScanNet++ 训练 Reloc3r 的示例脚本：

bash scripts/train_small.sh

要复现使用 8 个 H800 GPU 训练 Reloc3r-512 的过程，运行以下脚本：

bash scripts/train.sh

💡 使用建议

这些脚本与训练 Reloc3r 所使用的脚本并不严格相同，但应该足够接近。

📄 许可证

本项目未提及相关许可证信息。

📚 引用

如果你发现我们的工作对你的研究有帮助，请考虑引用：

@article{reloc3r,
  title={Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization},
  author={Dong, Siyan and Wang, Shuzhe and Liu, Shaohui and Cai, Lulu and Fan, Qingnan and Kannala, Juho and Yang, Yanchao},
  journal={arXiv preprint arXiv:2412.08376},
  year={2024}
}