marigold-normals-v0-1オープンソースモデル - 単一RGB画像から表面法線マップを正確に予測する

ホーム

Marigold Normals V0 1

prs-ethによって開発

安定拡散モデルをファインチューニングした単眼画像法線推定モデルで、単一のRGB画像から表面法線マップを予測可能

3Dビジョン英語オープンソースライセンス:Apache-2.0 #単眼法線推定 #ゼロショット学習 #拡散モデルのファインチューニング

ダウンロード数 8,845

リリース時間 : 4/18/2024

モデル概要

このモデルはStable Diffusion 2をベースにファインチューニングされ、単一画像からの単眼法線推定に使用され、表面法線マップと不確実性マップを出力します。

モデル特徴

ゼロショット学習

特定シーンのトレーニング不要で様々な実シーン画像を処理可能

高解像度処理

約768ピクセルの解像度画像を効果的に処理し、多様なアプリケーションシーンに適応

不確実性推定

不確実性マップを生成可能で、予測信頼性の評価を支援

容易な統合

diffusersライブラリに統合済みで、簡易API呼び出しが可能

モデル能力

単眼法線推定

画像分析

コンピュータビジョン処理

実シーン適応

使用事例

コンピュータビジョン

3Dシーン再構築

単一画像から表面法線を推定し、3Dシーン再構築を支援

3Dモデリングに使用可能な表面法線情報を生成

拡張現実

ARアプリケーションにシーン幾何情報を提供

実シーンにおける仮想オブジェクトの融合効果を改善

ロボットビジョン

ロボットナビゲーション

ロボットに環境幾何情報を提供

ロボットがシーン構造と障害物を理解するのを支援

🚀 Marigold Normals v0-1 モデルカード

このモデルは、単一画像からの単眼法線推定を行う marigold-normals-v0-1 モデルに関する情報を提供します。stable-diffusion-2 モデルをベースに微調整されており、論文で詳細が解説されています。

🚀 クイックスタート

このモデルの使い方は以下の通りです：

Hugging Face Spacesのデモでインタラクティブに試すことができます。サンプル画像でモデルの動作を確認するか、自分の画像をアップロードして試してみてください。
diffusers を使用すると、数行のコードで結果を計算できます。
公式コードベースを参照することで、詳細を理解することができます。

✨ 主な機能

単一画像からの表面法線マップの生成が可能です。
モデルは stable-diffusion-2 モデルをベースに微調整されています。

📚 ドキュメント

モデルの詳細

開発者: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
モデルの種類: 単一画像からの生成的潜在拡散ベースの法線推定
言語: 英語
ライセンス: Apache License License Version 2.0
モデルの説明: このモデルは、入力画像の推定表面法線マップを生成するために使用できます。
- 解像度: 任意の解像度の画像を処理できますが、モデルはベースの拡散モデルの有効解像度である約 768 ピクセルを継承しています。これは、最適な予測を得るために、より大きな入力画像は、モデルに入力する前に長辺を 768 ピクセルにリサイズする必要があることを意味します。
- ステップ数とスケジューラ: このモデルは、DDIM スケジューラと 10 から 50 のデノイジングステップでの使用を想定して設計されています。
- 出力:
  - 表面法線マップ: 予測値は、画面空間カメラ内の 3 次元単位ベクトルです。
  - 不確定性マップ: アンサンブルサイズが 2 より大きい複数の予測をアンサンブルした場合にのみ生成されます。
詳細情報のリソース: プロジェクトウェブサイト, 論文, コード
引用方法:

@misc{ke2025marigold,
  title={Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis},
  author={Bingxin Ke and Kevin Qu and Tianfu Wang and Nando Metzger and Shengyu Huang and Bo Li and Anton Obukhov and Konrad Schindler},
  year={2025},
  eprint={2505.09358},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@InProceedings{ke2023repurposing,
  title={Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation},
  author={Bingxin Ke and Anton Obukhov and Shengyu Huang and Nando Metzger and Rodrigo Caye Daudt and Konrad Schindler},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2024}
}