B

Beit Base Patch16 224 Pt22k Ft22k

microsoftによって開発
BEiTは視覚Transformer(ViT)ベースの画像分類モデルで、自己教師あり方式でImageNet-22kで事前学習され、同じデータセットでファインチューニングされています。
ダウンロード数 546.85k
リリース時間 : 3/2/2022

モデル概要

BEiTモデルは視覚Transformerで、自己教師あり方式でImageNet-22kで事前学習され、ファインチューニングによって画像分類タスクを実現します。

モデル特徴

自己教師あり事前学習
マスクされた画像パッチの視覚トークンを予測する方式で事前学習し、画像の内在的表現を学習します。
相対位置埋め込み
絶対位置埋め込みではなく(T5と同様の)相対位置埋め込みを採用し、モデル性能を向上させます。
平均プーリング分類
[CLS]トークンに依存せず、画像パッチの最終隠れ状態を平均プーリングして分類します。

モデル能力

画像分類
特徴抽出

使用事例

画像分類
ImageNet分類
画像をImageNet-22kの21,841クラスのいずれかに分類します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase