D

Dpt Hybrid Midas

Intelによって開発
ビジョントランスフォーマー(ViT)に基づく単眼深度推定モデル、140万枚の画像でトレーニング
ダウンロード数 224.05k
リリース時間 : 12/6/2022

モデル概要

単眼深度推定タスクのための密な予測トランスフォーマー(DPT)モデル。このモデルはViT-hybridをバックボーンネットワークとして使用し、単一画像から深度情報を予測できます。

モデル特徴

ゼロショット転移能力
モデルは優れたゼロショット転移能力を持ち、未見のデータセットでも良好な性能を発揮します
ハイブリッドアーキテクチャ
ViT-hybridをバックボーンネットワークとして使用し、畳み込みとトランスフォーマーの利点を組み合わせています
大規模トレーニング
約140万枚の画像を含むMIX-6データセットでトレーニングされており、強力な汎化能力を持っています

モデル能力

単眼深度推定
ゼロショット転移
画像深度予測

使用事例

コンピュータビジョン
シーン深度分析
単一画像からシーン内の各オブジェクトの相対的な深度を推定
入力画像に対応する深度マップを生成可能
3Dシーン再構築
3D再構築に深度情報を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase