B

Beit Base Patch16 224 Pt22k

microsoftによって開発
BEiTは、ビジュアルTransformerに基づくモデルで、自己教師付き学習によりImageNet - 21kデータセットで事前学習され、画像分類タスクに使用されます。
ダウンロード数 2,647
リリース時間 : 3/2/2022

モデル概要

BEiTモデルはビジュアルTransformer(ViT)で、自己教師付き方式でImageNet - 21kデータセットで事前学習され、主に画像分類タスクに使用されます。

モデル特徴

自己教師付き事前学習
モデルは自己教師付き方式でImageNet - 21kデータセットで事前学習され、画像の内在的な表現を学習します。
ビジュアルTransformerアーキテクチャ
BERTに似たTransformerエンコーダモデルを採用し、絶対位置埋め込みではなく相対位置埋め込みを使用します。
マスク画像パッチ予測
事前学習の目標は、マスク画像パッチに基づいてOpenAIのDALL - EのVQ - VAEエンコーダが生成したビジュアルトークンを予測することです。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
事前学習モデルを使用して画像分類タスクを行います。
特徴抽出
下流タスクに使用するために画像の特徴を抽出します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase