dpt-beit-large-512オープンソースモデル - 単一画像から高精度で詳細な深度情報を推論する

ホーム

Dpt Beit Large 512

Intelによって開発

BEiT Transformerベースの単眼深度推定モデルで、単一画像から詳細な深度情報を推測可能

3Dビジョン

Transformers

オープンソースライセンス:MIT #ゼロショット深度推定 #BEiTバックボーンネットワーク #高精度深度マップ

ダウンロード数 2,794

リリース時間 : 11/28/2023

モデル概要

このDPTモデルはBEiTモデルをバックボーンネットワークとして使用し、上部にネックとヘッド構造を追加して単眼深度推定を実現、生成AI、3D再構築、自動運転などの分野に応用可能

モデル特徴

高品質深度推定

BEiT Transformerを使用することで最高品質の深度推定結果を得られる

マルチ解像度対応

BEiT512-L、BEiT384-L、BEiT384-Bなどのバリエーションを提供し、異なるトレーニング解像度に対応

ゼロショット転移能力

ゼロショット転移能力を備え、指標値は10.82

モデル能力

単眼深度推定

画像深度情報推論

ゼロショット転移

使用事例

コンピュータビジョン

3D再構築

単一画像から深度情報を推測し3Dシーン再構築に利用

自動運転

自動運転システムに環境深度知覚を提供

生成AI

生成AIモデルに深度情報入力を提供

🚀 dpt-beit-large-512

単眼深度推定に特化したモデルで、画像から詳細な深度情報を推論することができます。生成AI、3D再構築、自動運転などの分野での応用が期待されます。

🚀 クイックスタート

単眼深度推定は、単一の画像またはカメラビューから詳細な深度を推論することを目的としており、生成AI、3D再構築、自動運転などの分野で応用されています。しかし、単一画像の個々のピクセルから深度を導き出すことは、問題の制約不足のために困難です。最近の進歩は、学習ベースの手法、特にMiDaSを活用したデータセットの混合とスケールおよびシフト不変損失によるものです。MiDaSは、より強力なバックボーンを備えたリリースや、モバイル用の軽量バリアントが登場しています。コンピュータビジョンにおけるトランスフォーマーアーキテクチャの台頭に伴い、ViTなどのモデルによって開拓されたものを含め、深度推定にそれらを使用する傾向があります。これに触発されて、MiDaS v3.1は、従来の畳み込みネットワークとともに、有望なトランスフォーマーベースのエンコーダを組み込み、深度推定技術の包括的な調査を目指しています。

入力画像	出力深度画像

✨ 主な機能

このDPTモデルは、BEiTモデルをバックボーンとして使用し、単眼深度推定のためにネックとヘッドを追加しています。 model image

以前のリリースであるMiDaS v3.0は、バニラビジョントランスフォーマーViTのみを活用していましたが、MiDaS v3.1は、BEiT、Swin、SwinV2、Next-ViT、LeViTに基づく追加のモデルを提供しています。

📦 インストール

インストール方法

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

💻 使用例

基本的な使用法

from transformers import DPTImageProcessor, DPTForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = DPTImageProcessor.from_pretrained("Intel/dpt-beit-large-512")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-beit-large-512")

# prepare image for the model
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    predicted_depth = outputs.predicted_depth

# interpolate to original size
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
)

# visualize the prediction
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)
depth

高度な使用法

from transformers import pipeline

pipe = pipeline(task="depth-estimation", model="Intel/dpt-beit-large-512")
result = pipe("http://images.cocodataset.org/val2017/000000181816.jpg")
result["depth"]

📚 ドキュメント

モデル詳細

プロパティ	詳細
モデルタイプ	コンピュータビジョン - 単眼深度推定
モデルの作者 - 会社	Intel
日付	2024年3月7日
バージョン	1
論文またはその他のリソース	MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation と GitHub Repo
ライセンス	MIT
質問やコメント	コミュニティタブと Intel Developers Discord

想定される使用法

想定される使用法	説明
主な想定使用法	生のモデルをゼロショット単眼深度推定に使用することができます。モデルハブを参照して、あなたが興味のあるタスクで微調整されたバージョンを探してください。
主な想定ユーザー	単眼深度推定を行う人
想定外の使用法	このモデルは、ほとんどの場合、あなたの特定のタスクに合わせて微調整する必要があります。このモデルは、意図的に人々に敵対的または疎外感を与える環境を作るために使用してはいけません。

定量的分析

モデル	正方形解像度HRWSI RMSE	正方形解像度Blended MVS REL	正方形解像度ReDWeb RMSE
BEiT 384-L	0.068	0.070	0.076
Swin-L Training 1	0.0708	0.0724	0.0826
Swin-L Training 2	0.0713	0.0720	0.0831
ViT-L	0.071	0.072	0.082
---	---	---	---
Next-ViT-L-1K-6M	0.075	0.073	0.085
DeiT3-L-22K-1K	0.070	0.070	0.080
ViT-L-Hybrid	0.075	0.075	0.085
DeiT3-L	0.077	0.075	0.087
---	---	---	---
ConvNeXt-XL	0.075	0.075	0.085
ConvNeXt-L	0.076	0.076	0.087
EfficientNet-L2	0.165	0.277	0.219
---	---	---	---
ViT-L Reversed	0.071	0.073	0.081
Swin-L Equidistant	0.072	0.074	0.083
---	---	---	---

倫理的考慮事項と制限事項

dpt-beit-large-512は事実に誤りのある出力を生成する可能性があり、事実に正確な情報を生成することに依存してはいけません。事前学習モデルと微調整データセットの制限により、このモデルが下品、偏見、またはその他の不快な出力を生成する可能性があります。

したがって、dpt-beit-large-512のアプリケーションを展開する前に、開発者は安全性テストを実施する必要があります。

注意事項と推奨事項

ユーザー（直接および下流の両方）は、モデルのリスク、偏見、および制限について認識される必要があります。

IntelのAIソフトウェアについて詳しく学ぶための有用なリンクをいくつか紹介します。

Intel Neural Compressor リンク
Intel Extension for Transformers リンク

免責事項

このモデルのライセンスは法的アドバイスを構成するものではありません。このモデルを使用する第三者の行動について、私たちは責任を負いません。商用目的でこのモデルを使用する前に、弁護士に相談してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2103-13413,
  author    = {Ren{\'{e}} Reiner Birkl, Diana Wofk, Matthias Muller},
  title     = {MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation},
  journal   = {CoRR},
  volume    = {abs/2307.14460},
  year      = {2021},
  url       = {https://arxiv.org/abs/2307.14460},
  eprinttype = {arXiv},
  eprint    = {2307.14460},
  timestamp = {Wed, 26 Jul 2023},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2307.14460.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}