🚀 Depth-Anything-V2-Base
Depth Anything V2は、595Kの合成ラベル付き画像と62M以上の実際のラベル無し画像から学習された、最も高性能な単眼深度推定(MDE)モデルを提供します。以下の特徴があります。
- Depth Anything V1よりも細かい詳細を捉えることができます。
- Depth Anything V1やSDベースのモデル(例:Marigold、Geowizard)よりも堅牢です。
- SDベースのモデルよりも効率的(10倍高速)かつ軽量です。
- 事前学習モデルを用いたファインチューニングでも印象的な性能を発揮します。
🚀 クイックスタート
このセクションでは、Depth-Anything-V2の基本的な使い方を説明します。
✨ 主な機能
- 細かい詳細の捉え方:Depth Anything V1よりも細かい詳細を捉えることができます。
- 堅牢性:Depth Anything V1やSDベースのモデル(例:Marigold、Geowizard)よりも堅牢です。
- 効率性と軽量性:SDベースのモデルよりも効率的(10倍高速)かつ軽量です。
- ファインチューニング性能:事前学習モデルを用いたファインチューニングでも印象的な性能を発揮します。
📦 インストール
以下のコマンドを実行して、Depth-Anything-V2をインストールします。
git clone https://huggingface.co/spaces/depth-anything/Depth-Anything-V2
cd Depth-Anything-V2
pip install -r requirements.txt
💻 使用例
基本的な使用法
まず、モデルをダウンロードし、checkpoints
ディレクトリに配置します。
import cv2
import torch
from depth_anything_v2.dpt import DepthAnythingV2
model = DepthAnythingV2(encoder='vitb', features=128, out_channels=[96, 192, 384, 768])
model.load_state_dict(torch.load('checkpoints/depth_anything_v2_vitb.pth', map_location='cpu'))
model.eval()
raw_img = cv2.imread('your/image/path')
depth = model.infer_image(raw_img)
📚 ドキュメント
このセクションでは、Depth-Anything-V2の詳細な使い方を説明します。
📄 ライセンス
このプロジェクトは、CC BY-NC 4.0ライセンスの下で公開されています。
📚 引用
もしこのプロジェクトが役に立った場合は、以下の文献を引用してください。
@article{depth_anything_v2,
title={Depth Anything V2},
author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Zhao, Zhen and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},
journal={arXiv:2406.09414},
year={2024}
}
@inproceedings{depth_anything_v1,
title={Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data},
author={Yang, Lihe and Kang, Bingyi and Huang, Zilong and Xu, Xiaogang and Feng, Jiashi and Zhao, Hengshuang},
booktitle={CVPR},
year={2024}
}