dpt-beit-base-384オープンソースモデル - 単眼深度推定タスクを高精度で完了

ホーム

Dpt Beit Base 384

Intelによって開発

DPTはBEiTバックボーンネットワークに基づく密集予測トランスフォーマーモデルで、単眼深度推定に使用され、140万枚の画像でトレーニングされています。

3Dビジョン

Transformers

オープンソースライセンス:MIT #単眼深度推定 #ゼロショット学習 #BEiTバックボーンネットワーク

ダウンロード数 25.98k

リリース時間 : 11/28/2023

モデル概要

このモデルは、単一画像から深度情報を予測するために特別に設計された視覚トランスフォーマーアーキテクチャです。BEiTをバックボーンネットワークとして採用し、深度推定専用のヘッド構造を追加しています。

モデル特徴

BEiTバックボーンネットワークベース

BEiT事前トレーニングモデルの強力な特徴抽出能力を活用

ゼロショット深度推定

特定のシーン向けに微調整せずに深度予測が可能

高解像度出力

入力画像の解像度に一致する深度マップを生成可能

モデル能力

単眼深度推定

画像深度予測

3Dシーン理解

使用事例

コンピュータビジョン

3Dシーン再構築

単一画像から3Dシーンの深度情報を再構築

入力画像と同じ解像度の深度マップを生成

拡張現実

ARアプリケーションにシーン深度情報を提供

ロボットナビゲーション

自律移動ロボットに環境深度知覚を提供

🚀 DPT 3.1 (BEiT backbone)

DPT (Dense Prediction Transformer) モデルは、単眼深度推定のために140万枚の画像で学習されています。このモデルは、Ranftl ら (2021) による論文 Vision Transformers for Dense Prediction で紹介され、最初はこのリポジトリで公開されました。

免責事項: DPTを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このセクションでは、DPT 3.1 (BEiT backbone) モデルの概要と使用方法を説明します。

✨ 主な機能

単眼深度推定のために140万枚の画像で学習されたDPTモデルです。
BEiT モデルをバックボーンとして使用し、単眼深度推定のためのネックとヘッドを追加しています。

📚 ドキュメント

モデルの説明

このDPTモデルは、BEiT モデルをバックボーンとして使用し、単眼深度推定のためにネックとヘッドを追加しています。

model image

使い方

以下は、画像のゼロショット深度推定にこのモデルを使用する方法です。

基本的な使用法

from transformers import DPTImageProcessor, DPTForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = DPTImageProcessor.from_pretrained("Intel/dpt-beit-base-384")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-beit-base-384")

# prepare image for the model
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    predicted_depth = outputs.predicted_depth

# interpolate to original size
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
)

# visualize the prediction
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)

高度な使用法

from transformers import pipeline

pipe = pipeline(task="depth-estimation", model="Intel/dpt-beit-base-384")
result = pipe("http://images.cocodataset.org/val2017/000000039769.jpg")
result["depth"]