marigold-depth-v1-0 オープンソースモデル - 自然シーンの単眼画像深度予測を無料で実現

Home

Marigold Depth V1 0

Developed by prs-eth

安定拡散モデルをファインチューニングした単眼画像深度推定モデルで、アフィン不変性を持ち、自然シーンの深度予測に適している

3Dビジョン EnglishOpen Source License:Apache-2.0 #ゼロショット深度推定 #拡散モデルのファインチューニング #アフィン不変深度

Downloads 92.50k

Release Time : 12/5/2023

Model Overview

このモデルは単一画像から推定深度マップを生成するために使用され、Stable Diffusion 2モデルをファインチューニングしており、ゼロショット学習をサポートします

Model Features

アフィン不変深度推定

モデルが予測する深度値は0から1の範囲で、アフィン不変性を持ち、異なるスケールのシーンに適用可能

ゼロショット学習能力

特定シーンの訓練データがなくても深度推定が可能

効率的な推論

1ステップの推論で良好な予測結果が得られ、10-50ステップ使用すればより正確な結果が得られる

不確実性推定

複数の予測を統合すると、不確実性マップを生成可能

Model Capabilities

単眼画像深度推定

自然シーン分析

深度マップ生成

不確実性定量化

Use Cases

コンピュータビジョン

3Dシーン再構築

単一画像からシーンの深度情報を推定

3Dモデリングやシーン理解に利用可能

拡張現実

ARアプリケーションに深度情報を提供

よりリアルな現実と仮想の融合効果を実現

ロボットビジョン

自律ナビゲーション

ロボットに環境の深度知覚を提供

経路計画や障害物回避を支援

🚀 マリーゴールド Depth v1-0 モデルカード

このモデルは、単一画像からの単眼深度推定を行う marigold-depth-v1-0 モデルのカードです。このモデルは、単一画像からの深度推定に役立ち、画像解析やコンピュータビジョンの分野で利用できます。

新着: マリーゴールド Depth v1-1 モデル

🚀 クイックスタート

これは、単一画像からの単眼深度推定を行う marigold-depth-v1-0 モデルのモデルカードです。このモデルは、stable-diffusion-2 モデルから微調整されており、以下の論文で説明されています。

CVPR'2024 論文タイトル "Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation"
ジャーナル拡張版タイトル "Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis"

モデルの使用方法

対話型の Hugging Face Spaces デモで遊んでみましょう。サンプル画像でモデルの動作を確認するか、自分の画像をアップロードできます。
diffusers を使用して、数行のコードで結果を計算できます。
公式コードベースで詳細を確認しましょう。

📚 ドキュメント

モデルの詳細

開発者: Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler.
モデルタイプ: 単一画像からの生成的潜在拡散ベースのアフィン不変単眼深度推定。
言語: 英語。
ライセンス: Apache License License Version 2.0.
モデルの説明: このモデルは、入力画像の推定深度マップを生成するために使用できます。
- 解像度: 任意の解像度を処理できますが、このモデルはベースの拡散モデルの有効解像度である約 768 ピクセルを引き継いでいます。これは、最適な予測を得るために、より大きな入力画像は、モデルに入力する前に長辺を 768 ピクセルにリサイズする必要があることを意味します。
- ステップ数とスケジューラ: このモデルは、DDIM スケジューラと 10 から 50 のノイズ除去ステップでの使用を想定して設計されています。スケジューラ設定ファイルの "timestep_spacing": "trailing" 設定を上書きするか、コードでパイプラインを読み込んだ後、最初の使用前に pipe.scheduler = DDIMScheduler.from_config(pipe.scheduler.config, timestep_spacing="trailing") を追加することで、たった 1 ステップ で良好な予測を得ることが可能です。互換性の理由から、この v1-0 モデルは論文の設定と同じに保ち、すべての可能なステップ構成に最適な設定を持つ新しい v1-1 モデルを提供しています。
- 出力:
  - アフィン不変深度マップ: 予測値は 0 から 1 の間で、モデルが選択した近平面と遠平面の間を補間します。
  - 不確実性マップ: アンサンブルサイズが 2 より大きい複数の予測をアンサンブルする場合にのみ生成されます。
詳細情報のリソース: プロジェクトウェブサイト, 論文, コード.
引用方法:

@InProceedings{ke2023repurposing,
  title={Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation},
  author={Bingxin Ke and Anton Obukhov and Shengyu Huang and Nando Metzger and Rodrigo Caye Daudt and Konrad Schindler},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2024}
}

@misc{ke2025marigold,
  title={Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis},
  author={Bingxin Ke and Kevin Qu and Tianfu Wang and Nando Metzger and Shengyu Huang and Bo Li and Anton Obukhov and Konrad Schindler},
  year={2025},
  eprint={2505.09358},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}