🚀 dpt-beit-large-512
単眼深度推定に特化したモデルで、画像から詳細な深度情報を推論することができます。生成AI、3D再構築、自動運転などの分野での応用が期待されます。
🚀 クイックスタート
単眼深度推定は、単一の画像またはカメラビューから詳細な深度を推論することを目的としており、生成AI、3D再構築、自動運転などの分野で応用されています。しかし、単一画像の個々のピクセルから深度を導き出すことは、問題の制約不足のために困難です。最近の進歩は、学習ベースの手法、特にMiDaSを活用したデータセットの混合とスケールおよびシフト不変損失によるものです。MiDaSは、より強力なバックボーンを備えたリリースや、モバイル用の軽量バリアントが登場しています。コンピュータビジョンにおけるトランスフォーマーアーキテクチャの台頭に伴い、ViTなどのモデルによって開拓されたものを含め、深度推定にそれらを使用する傾向があります。これに触発されて、MiDaS v3.1は、従来の畳み込みネットワークとともに、有望なトランスフォーマーベースのエンコーダを組み込み、深度推定技術の包括的な調査を目指しています。
入力画像 |
出力深度画像 |
 |
 |
✨ 主な機能
このDPTモデルは、BEiTモデルをバックボーンとして使用し、単眼深度推定のためにネックとヘッドを追加しています。

以前のリリースであるMiDaS v3.0は、バニラビジョントランスフォーマーViTのみを活用していましたが、MiDaS v3.1は、BEiT、Swin、SwinV2、Next-ViT、LeViTに基づく追加のモデルを提供しています。
📦 インストール
インストール方法
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
💻 使用例
基本的な使用法
from transformers import DPTImageProcessor, DPTForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = DPTImageProcessor.from_pretrained("Intel/dpt-beit-large-512")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-beit-large-512")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
predicted_depth = outputs.predicted_depth
prediction = torch.nn.functional.interpolate(
predicted_depth.unsqueeze(1),
size=image.size[::-1],
mode="bicubic",
align_corners=False,
)
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)
depth
高度な使用法
from transformers import pipeline
pipe = pipeline(task="depth-estimation", model="Intel/dpt-beit-large-512")
result = pipe("http://images.cocodataset.org/val2017/000000181816.jpg")
result["depth"]
📚 ドキュメント
モデル詳細
想定される使用法
想定される使用法 |
説明 |
主な想定使用法 |
生のモデルをゼロショット単眼深度推定に使用することができます。モデルハブ を参照して、あなたが興味のあるタスクで微調整されたバージョンを探してください。 |
主な想定ユーザー |
単眼深度推定を行う人 |
想定外の使用法 |
このモデルは、ほとんどの場合、あなたの特定のタスクに合わせて微調整する必要があります。このモデルは、意図的に人々に敵対的または疎外感を与える環境を作るために使用してはいけません。 |
定量的分析
モデル |
正方形解像度HRWSI RMSE |
正方形解像度Blended MVS REL |
正方形解像度ReDWeb RMSE |
BEiT 384-L |
0.068 |
0.070 |
0.076 |
Swin-L Training 1 |
0.0708 |
0.0724 |
0.0826 |
Swin-L Training 2 |
0.0713 |
0.0720 |
0.0831 |
ViT-L |
0.071 |
0.072 |
0.082 |
--- |
--- |
--- |
--- |
Next-ViT-L-1K-6M |
0.075 |
0.073 |
0.085 |
DeiT3-L-22K-1K |
0.070 |
0.070 |
0.080 |
ViT-L-Hybrid |
0.075 |
0.075 |
0.085 |
DeiT3-L |
0.077 |
0.075 |
0.087 |
--- |
--- |
--- |
--- |
ConvNeXt-XL |
0.075 |
0.075 |
0.085 |
ConvNeXt-L |
0.076 |
0.076 |
0.087 |
EfficientNet-L2 |
0.165 |
0.277 |
0.219 |
--- |
--- |
--- |
--- |
ViT-L Reversed |
0.071 |
0.073 |
0.081 |
Swin-L Equidistant |
0.072 |
0.074 |
0.083 |
--- |
--- |
--- |
--- |
倫理的考慮事項と制限事項
dpt-beit-large-512は事実に誤りのある出力を生成する可能性があり、事実に正確な情報を生成することに依存してはいけません。事前学習モデルと微調整データセットの制限により、このモデルが下品、偏見、またはその他の不快な出力を生成する可能性があります。
したがって、dpt-beit-large-512のアプリケーションを展開する前に、開発者は安全性テストを実施する必要があります。
注意事項と推奨事項
ユーザー(直接および下流の両方)は、モデルのリスク、偏見、および制限について認識される必要があります。
IntelのAIソフトウェアについて詳しく学ぶための有用なリンクをいくつか紹介します。
- Intel Neural Compressor リンク
- Intel Extension for Transformers リンク
免責事項
このモデルのライセンスは法的アドバイスを構成するものではありません。このモデルを使用する第三者の行動について、私たちは責任を負いません。商用目的でこのモデルを使用する前に、弁護士に相談してください。
BibTeXエントリと引用情報
@article{DBLP:journals/corr/abs-2103-13413,
author = {Ren{\'{e}} Reiner Birkl, Diana Wofk, Matthias Muller},
title = {MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation},
journal = {CoRR},
volume = {abs/2307.14460},
year = {2021},
url = {https://arxiv.org/abs/2307.14460},
eprinttype = {arXiv},
eprint = {2307.14460},
timestamp = {Wed, 26 Jul 2023},
biburl = {https://dblp.org/rec/journals/corr/abs-2307.14460.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}