B

Beit Large Patch16 224 Pt22k Ft22k

microsoftによって開発
BEiTは視覚Transformer(ViT)ベースの画像分類モデルで、自己教師あり方式でImageNet-22kで事前学習され、同じデータセットでファインチューニングされています。
ダウンロード数 1,880
リリース時間 : 3/2/2022

モデル概要

BEiTモデルは視覚Transformer(ViT)で、自己教師あり方式でImageNet-22kで事前学習され、同じデータセットでファインチューニングされており、主に画像分類タスクに使用されます。

モデル特徴

自己教師あり事前学習
モデルはマスクされた画像ブロックの視覚トークンを予測する方法で自己教師あり事前学習を行い、画像の内在的表現を学習します。
相対位置埋め込み
絶対位置埋め込みではなく相対位置埋め込みを使用し、モデルの画像構造理解能力を向上させます。
大規模データセットでの学習
ImageNet-22k(1400万枚の画像、21,841クラス)で事前学習とファインチューニングを行いました。

モデル能力

画像分類
特徴抽出

使用事例

画像分類
ImageNet分類
画像を21,841のImageNet-22kクラスのいずれかに分類します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase