D

Deit Base Patch16 224

facebookによって開発
DeiTは、アテンション機構を用いてトレーニングされたデータ効率的な画像Transformerモデルで、ImageNet - 1kデータセット上で224x224の解像度で事前学習と微調整が行われます。
ダウンロード数 152.63k
リリース時間 : 3/2/2022

モデル概要

このモデルは、より効率的にトレーニングされたVision Transformer(ViT)で、主に画像分類タスクに使用されます。ImageNet - 1kデータセット上で監督方式で事前学習と微調整が行われ、画像の内在的な表現を学習し、下流タスクに有用な特徴を抽出することができます。

モデル特徴

データ効率的なトレーニング
アテンション機構と蒸留技術を通じて、より効率的なデータ利用を実現し、トレーニングに必要なデータ量を削減します。
高い正解率
ImageNet - 1kデータセット上で、トップ1正解率が81.8%、トップ5正解率が95.6%に達します。
Transformerアーキテクチャに基づく
BERTに似たTransformerエンコーダ構造を採用し、画像処理タスクに適しています。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
画像を1000のImageNetカテゴリのいずれかに分類します。
ImageNet - 1k上で81.8%のトップ1正解率を達成します。
下流タスクの特徴抽出
事前学習モデルとして、他のコンピュータビジョンタスクに特徴抽出能力を提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase