🚀 マリーゴールド Depth v1-0 モデルカード
このモデルは、単一画像からの単眼深度推定を行う marigold-depth-v1-0
モデルのカードです。このモデルは、単一画像からの深度推定に役立ち、画像解析やコンピュータビジョンの分野で利用できます。
🚀 クイックスタート
これは、単一画像からの単眼深度推定を行う marigold-depth-v1-0
モデルのモデルカードです。このモデルは、stable-diffusion-2
モデル から微調整されており、以下の論文で説明されています。
- CVPR'2024 論文 タイトル "Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation"
- ジャーナル拡張版 タイトル "Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis"
モデルの使用方法
📚 ドキュメント
モデルの詳細
- 開発者: Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler.
- モデルタイプ: 単一画像からの生成的潜在拡散ベースのアフィン不変単眼深度推定。
- 言語: 英語。
- ライセンス: Apache License License Version 2.0.
- モデルの説明: このモデルは、入力画像の推定深度マップを生成するために使用できます。
- 解像度: 任意の解像度を処理できますが、このモデルはベースの拡散モデルの有効解像度である約 768 ピクセルを引き継いでいます。これは、最適な予測を得るために、より大きな入力画像は、モデルに入力する前に長辺を 768 ピクセルにリサイズする必要があることを意味します。
- ステップ数とスケジューラ: このモデルは、DDIM スケジューラと 10 から 50 のノイズ除去ステップでの使用を想定して設計されています。スケジューラ設定ファイル の
"timestep_spacing": "trailing"
設定を上書きするか、コードでパイプラインを読み込んだ後、最初の使用前に pipe.scheduler = DDIMScheduler.from_config(pipe.scheduler.config, timestep_spacing="trailing")
を追加することで、たった 1 ステップ で良好な予測を得ることが可能です。互換性の理由から、この v1-0
モデルは論文の設定と同じに保ち、すべての可能なステップ構成に最適な設定を持つ 新しい v1-1 モデル を提供しています。
- 出力:
- アフィン不変深度マップ: 予測値は 0 から 1 の間で、モデルが選択した近平面と遠平面の間を補間します。
- 不確実性マップ: アンサンブルサイズが 2 より大きい複数の予測をアンサンブルする場合にのみ生成されます。
- 詳細情報のリソース: プロジェクトウェブサイト, 論文, コード.
- 引用方法:
@InProceedings{ke2023repurposing,
title={Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation},
author={Bingxin Ke and Anton Obukhov and Shengyu Huang and Nando Metzger and Rodrigo Caye Daudt and Konrad Schindler},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2024}
}
@misc{ke2025marigold,
title={Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis},
author={Bingxin Ke and Kevin Qu and Tianfu Wang and Nando Metzger and Shengyu Huang and Bo Li and Anton Obukhov and Konrad Schindler},
year={2025},
eprint={2505.09358},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
📄 ライセンス
このモデルは Apache License License Version 2.0 の下で提供されています。