Depth Anything Small HFオープンソース深度推定モデル - 無料でデプロイし、深度推定タスクを高精度で完了

ホーム

Depth Anything Small Hf

LiheYoungによって開発

Depth AnythingはDPTアーキテクチャに基づく深度推定モデルで、DINOv2バックボーンネットワークを採用し、約6200万枚の画像でトレーニングされ、相対的および絶対的深度推定タスクで優れた性能を発揮します。

3Dビジョン

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット深度推定 #大規模教師なしトレーニング #DPTアーキテクチャ

ダウンロード数 97.89k

リリース時間 : 1/22/2024

モデル概要

このモデルはゼロショット深度推定タスクに使用され、単一画像から深度情報を予測できます。

モデル特徴

大規模トレーニングデータ

約6200万枚の画像でトレーニングされ、モデルの汎化能力を向上させました。

ゼロショット深度推定

微調整なしで直接深度推定タスクに適用可能です。

先進的なアーキテクチャ

DPTアーキテクチャとDINOv2バックボーンネットワークを採用し、両技術の利点を組み合わせています。

モデル能力

単一画像深度推定

ゼロショット学習

使用事例

コンピュータビジョン

3Dシーン再構築

単一画像から深度情報を推定し、3Dシーン再構築に使用します。

正確な深度マップを生成可能

拡張現実

ARアプリケーションにシーン深度情報を提供します。

仮想オブジェクトと実シーン間のインタラクションを改善

🚀 Depth Anything (小型モデル、Transformersバージョン)

Depth Anythingモデルは、Lihe Yangらによる論文 Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data で紹介され、このリポジトリで最初に公開されました。

オンラインデモも提供されています。

免責事項: Depth Anythingを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは、大規模な未ラベルデータの力を活用して、高精度な深度推定を行うことができます。以下のセクションでは、モデルの詳細、使用方法、引用情報などを紹介します。

✨ 主な機能

高精度な深度推定：約6200万枚の画像で学習され、相対深度推定と絶対深度推定の両方で最先端の結果を達成しています。
ゼロショット学習：事前学習されたモデルを使用して、新しいタスクに対してゼロショットで深度推定を行うことができます。

📚 ドキュメント

モデルの説明

Depth Anythingは、DINOv2 をバックボーンとした DPT アーキテクチャを活用しています。

このモデルは約6200万枚の画像で学習され、相対深度推定と絶対深度推定の両方で最先端の結果を達成しています。

drawing

Depth Anythingの概要。元の論文から引用。

想定される用途と制限

このモデルは、ゼロショット深度推定などのタスクに使用することができます。興味のあるタスクに関する他のバージョンを探すには、モデルハブを参照してください。

使用方法

このモデルを使用してゼロショット深度推定を行う方法は次のとおりです。

基本的な使用法

from transformers import pipeline
from PIL import Image
import requests

# load pipe
pipe = pipeline(task="depth-estimation", model="LiheYoung/depth-anything-small-hf")

# load image
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

# inference
depth = pipe(image)["depth"]

高度な使用法

from transformers import AutoImageProcessor, AutoModelForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("LiheYoung/depth-anything-small-hf")
model = AutoModelForDepthEstimation.from_pretrained("LiheYoung/depth-anything-small-hf")

# prepare image for the model
inputs = image_processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    predicted_depth = outputs.predicted_depth

# interpolate to original size
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
)

より詳細なコード例については、ドキュメントを参照してください。

BibTeXエントリと引用情報

@misc{yang2024depth,
      title={Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data}, 
      author={Lihe Yang and Bingyi Kang and Zilong Huang and Xiaogang Xu and Jiashi Feng and Hengshuang Zhao},
      year={2024},
      eprint={2401.10891},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}