オープンソースのDUSt3Rモデル - 画像から簡単に3D幾何学モデルを生成し、3Dビジョンタスクをこなす

ホーム

Dust3r ViTLarge BaseDecoder 512 Linear

naverによって開発

DUSt3Rは画像から3D幾何学モデルを生成するための深層学習モデルで、幾何学的3D視覚タスクを簡単に実現できます。

3Dビジョン

Safetensors

#画像から3Dへ #幾何学的再構築 #マルチビューフュージョン

ダウンロード数 313

リリース時間 : 6/21/2024

モデル概要

DUSt3RはViTアーキテクチャに基づく深層学習モデルで、2D画像から3D幾何構造を生成することに特化しています。非対称なCroCo3DStereoアーキテクチャを採用し、異なる解像度の入力画像を処理できます。

モデル特徴

マルチ解像度サポート

複数の入力解像度(512x384から512x160)をサポートし、様々なシーン要件に対応

効率的な3D再構築

単一または複数の2D画像から迅速に3D幾何構造を再構築可能

ハイブリッドViTアーキテクチャ

ViT-LargeエンコーダーとViT-Baseデコーダーを組み合わせ、性能と効率のバランスを実現

モデル能力

単一画像3D再構築

マルチビュー3D再構築

幾何構造推定

深度推定

使用事例

コンピュータビジョン

シーン再構築

単一または複数の写真から屋内/屋外シーンの3D幾何構造を再構築

シーンの3D点群またはメッシュ表現を生成可能

オブジェクトモデリング

物体の写真から3Dモデルを生成

AR/VRコンテンツ作成や3Dプリントに利用可能

ロボットビジョン

環境認識

ロボットに環境の3D幾何学的理解を提供

ロボットのナビゲーションと障害物回避を支援

🚀 DUSt3R: 幾何学的3Dビジョンを簡単に

DUSt3Rは、幾何学的3Dビジョンを容易にするモデルです。このモデルは、画像から3D情報を取得するための効果的な手段を提供します。

🚀 クイックスタート

まずは、dust3rをインストールします。モデルをロードするには、以下のコードを使用します。

基本的な使用法

from dust3r.model import AsymmetricCroCo3DStereo
import torch

model = AsymmetricCroCo3DStereo.from_pretrained("naver/DUSt3R_ViTLarge_BaseDecoder_512_linear")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

📚 ドキュメント

BibTeX引用

@inproceedings{dust3r_cvpr24,
      title={DUSt3R: Geometric 3D Vision Made Easy}, 
      author={Shuzhe Wang and Vincent Leroy and Yohann Cabon and Boris Chidlovskii and Jerome Revaud},
      booktitle = {CVPR},
      year = {2024}
}

@misc{dust3r_arxiv23,
      title={DUSt3R: Geometric 3D Vision Made Easy}, 
      author={Shuzhe Wang and Vincent Leroy and Yohann Cabon and Boris Chidlovskii and Jerome Revaud},
      year={2023},
      eprint={2312.14132},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2312.14132}, 
}

モデル情報

プロパティ	詳細
ギットハブページ	https://github.com/naver/dust3r/
プロジェクトページ	https://dust3r.europe.naverlabs.com/

モデル名	トレーニング解像度	ヘッド	エンコーダ	デコーダ
DUSt3R_ViTLarge_BaseDecoder_512_linear	512x384, 512x336, 512x288, 512x256, 512x160	Linear	ViT-L	ViT-B

📄 ライセンス

コードはCC BY - NC - SA 4.0ライセンスの下で配布されています。詳細については、ライセンスを参照してください。チェックポイントに関しては、CC - BY - NC - SA 4.0に加えて、使用したすべての公開トレーニングデータセットとベースチェックポイントのライセンスに同意する必要があります。詳細はセクション: ハイパーパラメータを参照してください。