Depth Anythingオープンソース深度推定モデル - 大量の画像に基づくトレーニングで、無料で高精度な深度推定を実現

ホーム

Depth Anything Large Hf

LiheYoungによって開発

Depth AnythingはDPTアーキテクチャとDINOv2バックボーンネットワークに基づく深度推定モデルで、約6200万枚の画像でトレーニングされ、相対的および絶対的深度推定タスクで最先端の結果を達成しました。

3Dビジョン

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット深度推定 #大規模教師なしトレーニング #DPTアーキテクチャ

ダウンロード数 147.17k

リリース時間 : 1/23/2024

モデル概要

このモデルはゼロショット深度推定タスクに使用され、単一画像から深度情報を予測できます。

モデル特徴

大規模トレーニングデータ

約6200万枚の画像でトレーニングされ、モデルの汎化能力が向上しました。

先進的なアーキテクチャ

DPTアーキテクチャとDINOv2バックボーンネットワークを採用し、Transformerの利点を組み合わせています。

ゼロショット能力

微調整なしで深度推定タスクに直接適用できます。

モデル能力

単一画像深度推定

ゼロショット深度予測

使用事例

コンピュータビジョン

3Dシーン再構築

単一の2D画像から深度情報を予測し、3Dシーン再構築に使用します。

拡張現実

ARアプリケーションに深度情報サポートを提供します。

🚀 Depth Anything (大型モデル、Transformersバージョン)

Depth Anythingモデルは、Lihe Yangらによる論文 Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data で紹介され、このリポジトリで最初に公開されました。

オンラインデモも提供されています。

免責事項：Depth Anythingを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このセクションでは、Depth Anythingモデルの概要と使用方法を紹介します。

✨ 主な機能

Depth Anythingは、DPT アーキテクチャを DINOv2 バックボーンで活用しています。
このモデルは約6200万枚の画像で学習され、相対深度推定と絶対深度推定の両方で最先端の結果を得ています。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

ここでは、このモデルを使ってゼロショット深度推定を行う方法を示します。

from transformers import pipeline
from PIL import Image
import requests

# load pipe
pipe = pipeline(task="depth-estimation", model="LiheYoung/depth-anything-large-hf")

# load image
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

# inference
depth = pipe(image)["depth"]

高度な使用法

クラスを直接使用する方法もあります。

from transformers import AutoImageProcessor, AutoModelForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("LiheYoung/depth-anything-large-hf")
model = AutoModelForDepthEstimation.from_pretrained("LiheYoung/depth-anything-large-hf")

# prepare image for the model
inputs = image_processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    predicted_depth = outputs.predicted_depth

# interpolate to original size
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
)

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

想定される用途と制限

この生モデルは、ゼロショット深度推定などのタスクに使用できます。関心のあるタスクの他のバージョンを探すには、モデルハブを参照してください。

モデルの説明

Depth Anythingは、DPT アーキテクチャを DINOv2 バックボーンで活用しています。このモデルは約6200万枚の画像で学習され、相対深度推定と絶対深度推定の両方で最先端の結果を得ています。

Depth Anything overview

Depth Anythingの概要。元の論文から引用。

BibTeXエントリと引用情報

@misc{yang2024depth,
      title={Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data}, 
      author={Lihe Yang and Bingyi Kang and Zilong Huang and Xiaogang Xu and Jiashi Feng and Hengshuang Zhao},
      year={2024},
      eprint={2401.10891},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}