D

Dpt Large

Intelによって開発
ビジュアルトランスフォーマー(ViT)に基づく単眼深度推定モデルで、140万枚の画像で訓練され、ゼロショット深度予測タスクに適しています。
ダウンロード数 364.62k
リリース時間 : 3/2/2022

モデル概要

密集予測トランスフォーマー(DPT)モデルは、単一の画像から深度情報を推定するために特別に設計されており、特定のシーンに対して微調整することなく、データセット間での移行が可能です。

モデル特徴

ゼロショット移行能力
微調整なしで新しいデータセットで良好な性能を発揮し、DIW WHDR指標は10.82に達します。
複数データセット訓練
MIX - 6データセット(約140万枚の画像)に基づいて訓練され、多様なシーンをカバーしています。
ビジュアルトランスフォーマーアーキテクチャ
ViTバックボーンネットワークと専用の予測ヘッドを組み合わせて、密集予測タスクを実現します。

モデル能力

単一画像深度推定
データセット間のゼロショット移行
密集予測変換

使用事例

コンピュータビジョン
シーン理解
単一のRGB画像からシーンの深度情報を推測します。
入力画像と同じ解像度の深度マップを生成できます。
拡張現実
ARアプリケーションにリアルタイムの深度感知を提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase