DUSt3Rオープンソースモデル - 無料で幾何学的3Dビジョンを実現し、画像から簡単に3Dシーンを再構築

ホーム

Dust3r ViTLarge BaseDecoder 512 Dpt

naverによって開発

DUSt3Rは、画像から簡単に幾何学的3Dビジョンを実現するモデルで、単一または複数の画像から3Dシーンを再構築できます。

3Dビジョン

Safetensors

#画像から3Dへ #幾何学的再構築 #マルチビューフュージョン

ダウンロード数 46.93k

リリース時間 : 6/24/2024

モデル概要

DUSt3Rは、深層学習に基づく3Dビジョンモデルで、2D画像から3D幾何構造を再構築することに特化しています。非対称のCroCo3DStereoアーキテクチャを採用し、ViT-LargeエンコーダーとViT-Baseデコーダーを組み合わせ、さまざまな解像度の入力画像を効率的に処理できます。

モデル特徴

マルチ解像度サポート

複数の入力解像度(512x384, 512x336など)をサポートし、さまざまなシーン要件に対応

効率的な3D再構築

単一または複数の画像から迅速に3Dシーンの幾何構造を再構築

先進的なアーキテクチャ

ViT-LargeエンコーダーとViT-Baseデコーダーを組み合わせた非対称CroCo3DStereoアーキテクチャ

モデル能力

単一画像3D再構築

マルチビュー3D再構築

深度推定

点群生成

使用事例

コンピュータビジョン

シーン再構築

単一または複数の写真から屋内/屋外シーンの3Dモデルを再構築

AR/VRアプリケーションに使用可能な3Dシーンを生成

オブジェクトモデリング

オブジェクトの写真から3Dモデルを生成

3Dプリンティングやデジタルコンテンツ作成に使用可能

拡張現実

ARシーン理解

ARアプリケーションにシーンの3D幾何情報を提供

ARオブジェクトのリアリズムとインタラクティブ性を向上

🚀 DUSt3R: 幾何学的3Dビジョンを簡単に

DUSt3Rは、幾何学的3Dビジョンを簡単に実現するモデルです。

🚀 クイックスタート

DUSt3Rを使って3Dビジョンタスクを行うことができます。まずは、以下の手順でモデルをロードしましょう。

モデルのロード

from dust3r.model import AsymmetricCroCo3DStereo
import torch

model = AsymmetricCroCo3DStereo.from_pretrained("naver/DUSt3R_ViTLarge_BaseDecoder_512_dpt")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

📦 インストール

最初に、dust3rをインストールしてください。

📚 ドキュメント

論文引用

@inproceedings{dust3r_cvpr24,
      title={DUSt3R: Geometric 3D Vision Made Easy}, 
      author={Shuzhe Wang and Vincent Leroy and Yohann Cabon and Boris Chidlovskii and Jerome Revaud},
      booktitle = {CVPR},
      year = {2024}
}

@misc{dust3r_arxiv23,
      title={DUSt3R: Geometric 3D Vision Made Easy}, 
      author={Shuzhe Wang and Vincent Leroy and Yohann Cabon and Boris Chidlovskii and Jerome Revaud},
      year={2023},
      eprint={2312.14132},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2312.14132}, 
}

モデル情報

Gihubページ: https://github.com/naver/dust3r/
プロジェクトページ: https://dust3r.europe.naverlabs.com/

モデル名	学習解像度	ヘッド	エンコーダ	デコーダ
DUSt3R_ViTLarge_BaseDecoder_512_dpt	512x384, 512x336, 512x288, 512x256, 512x160	DPT	ViT-L	ViT-B

📄 ライセンス

コードはCC BY-NC-SA 4.0ライセンスの下で配布されています。詳細については、LICENSEを参照してください。チェックポイントについては、CC-BY-NC-SA 4.0に加えて、使用したすべての公開学習データセットとベースチェックポイントのライセンスに同意する必要があります。詳細は、セクション: ハイパーパラメータを参照してください。