reloc3r - 512オープンソースカメラ姿勢推定モデル - シンプルで効率的、高精度にカメラ姿勢を推定

ホーム

Reloc3r 512

siyan824によって開発

Reloc3rは、事前学習済みの双視点相対カメラ姿勢回帰ネットワークと多視点運動平均モジュールを組み合わせた、簡潔で効率的なカメラ姿勢推定フレームワークです。

姿勢推定

Safetensors

#双視点姿勢回帰 #多視点運動平均 #リアルタイム視覚位置推定

ダウンロード数 840

リリース時間 : 1/6/2025

モデル概要

Reloc3rは、汎用的で高速かつ正確な視覚位置推定を実現する深層学習モデルです。大規模なトレーニング（約800万組の姿勢付き画像ペア）により驚異的な性能と汎化能力を示し、高品質なカメラ姿勢推定をリアルタイムで生成できます。

モデル特徴

効率的なリアルタイム処理

RTX 4090で40 FPSの推論速度を達成し、リアルタイムカメラ姿勢推定をサポートします。

大規模トレーニング

約800万組の姿勢付き画像ペアでトレーニングされ、優れた汎化能力を持ちます。

多視点サポート

双視点相対姿勢回帰と多視点運動平均モジュールを組み合わせ、姿勢推定精度を向上させます。

野外適用性

自己収集した画像/ビデオで優れた性能を発揮し、様々な実世界のシーンに適用可能です。

モデル能力

相対カメラ姿勢推定

絶対カメラ姿勢推定

視覚位置推定

画像ペア姿勢回帰

ビデオフレーム姿勢推定

使用事例

拡張現実

ARシーン位置推定

拡張現実アプリケーションでデバイスの位置と向きを迅速かつ正確に決定

高品質なカメラ姿勢推定をリアルタイムで生成

ロボットナビゲーション

自律ロボット位置推定

未知の環境でロボットが自身の位置を特定するのを支援

高精度な視覚位置推定能力

3D再構築

多視点3D再構築

3D再構築に正確なカメラ姿勢情報を提供

再構築の品質と精度を向上

🚀 Reloc3r: 汎用的、高速かつ高精度なビジュアルローカライゼーションのための相対カメラポーズ回帰の大規模トレーニング

Reloc3rは、事前学習された2ビュー相対カメラポーズ回帰ネットワークとマルチビューモーション平均化モジュールを組み合わせた、シンプルで効果的なカメラポーズ推定フレームワークです。約800万のポーズ付き画像ペアでトレーニングされ、驚くほど良好なパフォーマンスと汎化能力を達成し、リアルタイムで高品質なカメラポーズ推定を行うことができます。

論文: https://huggingface.co/papers/2412.08376 コード: https://github.com/ffrivera0/reloc3r

🚀 クイックスタート

Reloc3rを使用することで、撮影した画像や動画のカメラポーズを推定することができます。以下のセクションでは、インストール方法、使用例、評価方法、トレーニング方法などについて説明します。

✨ 主な機能

事前学習された2ビュー相対カメラポーズ回帰ネットワークとマルチビューモーション平均化モジュールを組み合わせたカメラポーズ推定フレームワーク
約800万のポーズ付き画像ペアでトレーニングされ、良好なパフォーマンスと汎化能力を持つ
リアルタイムで高品質なカメラポーズ推定を行うことができる

📦 インストール

Reloc3rをクローンします。

git clone --recursive https://github.com/ffrivera0/reloc3r.git
cd reloc3r
# すでにreloc3rをクローンしている場合は以下を実行
# git submodule update --init --recursive

condaを使用して環境を作成します。

conda create -n reloc3r python=3.11 cmake=3.14.0
conda activate reloc3r 
conda install pytorch torchvision pytorch-cuda=12.1 -c pytorch -c nvidia  # システムに合ったcudaバージョンを使用
pip install -r requirements.txt
# オプション: HEIC画像のサポートを追加する場合は以下を実行
pip install -r requirements_optional.txt

オプション: RoPE用のcudaカーネルをコンパイルします。

# Reloc3rはRoPE位置埋め込みに依存しており、高速な実行時間のためにいくつかのcudaカーネルをコンパイルすることができます。
cd croco/models/curope/
python setup.py build_ext --inplace
cd ../../../

オプション: チェックポイント Reloc3r-224/Reloc3r-512 をダウンロードします。事前学習されたモデルの重みは、以下の評価コードやデモコードを実行する際に自動的にダウンロードされます。

💻 使用例

基本的な使用法

相対ポーズ推定

wild_relpose.py のデモコードを試してみることができます。論文で使用したいくつかの画像ペアを用意しています。

# 引数を自分のパスに置き換えてください
python wild_relpose.py --v1_path ./data/wild_images/zurich0.jpg --v2_path ./data/wild_images/zurich1.jpg --output_folder ./data/wild_images/

相対ポーズを可視化するには、以下のコマンドを実行します。

# 引数を自分のパスに置き換えてください
python visualization.py --mode relpose --pose_path ./data/wild_images/pose2to1.txt

ビジュアルローカライゼーション

wild_visloc.py のデモコードは、自分で撮影した動画のサンプルフレームから絶対カメラポーズを推定します。

⚠️ 重要提示

このデモでは、最初と最後のフレームをデータベースとして使用しています。これには、すべての画像間に重複する領域が必要です。このデモは直線運動には対応していません。いくつかの動画を例として用意しています。

# 引数を自分のパスに置き換えてください
python wild_visloc.py --video_path ./data/wild_video/ids.MOV --output_folder ./data/wild_video

絶対ポーズを可視化するには、以下のコマンドを実行します。

# 引数を自分のパスに置き換えてください
python visualization.py --mode visloc --pose_folder ./data/wild_video/ids_poses/

📚 ドキュメント

相対カメラポーズ推定の評価

ScanNet1500とMegaDepth1500での評価を再現するには、ここからデータセットをダウンロードし、./data/ に解凍します。その後、以下のスクリプトを実行します。論文に示された結果と同様の結果が得られます。

bash scripts/eval_relpose.sh

💡 使用建议

より高速な推論速度を実現するには、--amp=1 を設定します。これにより、fp16 での評価が可能になり、RTX 4090でReloc3r-512を使用した場合、速度が24 FPS から 40 FPS に向上し、精度の損失はありません。

ビジュアルローカライゼーションの評価

Cambridgeでの評価を再現するには、ここからデータセットをダウンロードし、./data/cambridge/ に解凍します。その後、以下のスクリプトを実行します。論文に示された結果と同様の結果が得られます。

bash scripts/eval_visloc.sh

トレーニング

トレーニングデータの処理には DUSt3R を参考にしています。以下のデータセットをダウンロードします: CO3Dv2, ScanNet++, ARKitScenes, BlendedMVS, MegaDepth, DL3DV, RealEstate10K。

各データセットについて、datasets_preprocess ディレクトリに前処理スクリプトを用意しており、必要に応じてペアのリストを含むアーカイブを用意しています。データセットは公式ソースから自分でダウンロードし、ライセンスに同意して前処理スクリプトを実行する必要があります。

RTX 3090 GPUでScanNet++を使用してReloc3rをトレーニングするサンプルスクリプトを用意しています。

bash scripts/train_small.sh

8台のH800 GPUでReloc3r-512をトレーニングするには、以下のスクリプトを実行します。

bash scripts/train.sh

💡 使用建议

これらはReloc3rのトレーニングに使用されたものと厳密には同等ではありませんが、十分に近い結果が得られるはずです。

📄 ライセンス

本プロジェクトのライセンスについては、各データセットの公式ソースを参照してください。

📚 引用

本研究があなたの研究に役立った場合は、以下のように引用を考慮してください。

@article{reloc3r,
  title={Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization},
  author={Dong, Siyan and Wang, Shuzhe and Liu, Shaohui and Cai, Lulu and Fan, Qingnan and Kannala, Juho and Yang, Yanchao},
  journal={arXiv preprint arXiv:2412.08376},
  year={2024}
}