B

Beit Large Patch16 224 Pt22k

microsoftによって開発
BEiTはビジュアルTransformer(ViT)に基づく自己監督学習モデルで、ImageNet - 21kデータセットで事前学習され、画像分類タスクに使用されます。
ダウンロード数 237
リリース時間 : 3/2/2022

モデル概要

BEiTモデルはBERTに似たTransformerエンコーダ構造を採用し、自己監督方式でImageNet - 21kデータセット上で事前学習し、画像の内部表現を学習し、下流タスクの特徴抽出に使用できます。

モデル特徴

自己監督事前学習
マスクされた画像パッチのビジュアルトークン予測によって事前学習を行い、ラベル付きデータを必要としません。
相対位置埋め込み
絶対位置埋め込みではなく、T5に似た相対位置埋め込みを採用し、モデルの柔軟性を向上させます。
画像パッチ平均プーリング
[CLS]トークンに依存するのではなく、画像パッチの最終隠れ状態の平均プーリングによって分類を行います。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
画像を分類し、画像内のオブジェクトやシーンを識別するために使用できます。
複数の画像分類ベンチマークで他のモデルより優れた性能を示しています(具体的なデータは原論文を参照)。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase