D

Deit Base Distilled Patch16 384

facebookによって開発
蒸留版視覚Transformerモデル、最初に224x224解像度で事前学習し、その後384x384解像度でImageNet-1k上でファインチューニング、教師モデルから蒸留トークンを通じて学習。
ダウンロード数 1,824
リリース時間 : 3/2/2022

モデル概要

このモデルは蒸留版視覚Transformer(ViT)で、画像分類タスクに使用されます。教師CNNモデルから蒸留トークンを使用して学習し、高解像度画像処理をサポートします。

モデル特徴

蒸留学習
教師CNNモデルから蒸留トークンを通じて学習し、モデル性能を向上。
高解像度サポート
384x384解像度画像処理をサポートし、分類精度を向上。
データ効率的
ImageNet-1kで事前学習とファインチューニングを行い、データ使用が効率的。

モデル能力

画像分類
高解像度画像処理

使用事例

コンピュータビジョン
ImageNet画像分類
画像を1000のImageNetカテゴリのいずれかに分類。
Top-1精度85.2%、Top-5精度97.2%。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase