B

Beit Base Patch16 224

microsoftによって開発
BEiTはVision Transformerベースのモデルで、自己教師あり学習によりImageNet-21kで事前学習され、ImageNet-1kでファインチューニングされた画像分類タスク用モデルです。
ダウンロード数 58.34k
リリース時間 : 3/2/2022

モデル概要

BEiTモデルはBERTに似たTransformerエンコーダーアーキテクチャを採用し、マスクされた画像パッチ予測タスクによる事前学習を通じて画像の内在的表現を学習し、画像分類などの下流タスクに適しています。

モデル特徴

自己教師あり事前学習
マスク画像パッチ予測タスクによりImageNet-21kで事前学習し、画像の汎用的な表現を学習します。
相対位置エンコーディング
絶対位置エンコーディングではなくT5のような相対位置エンコーディングを採用し、画像構造の理解能力を向上させます。
平均プーリング分類
単一の[CLS]トークンに依存せず、全ての画像パッチの最終隠れ状態を平均プーリングして分類します。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
画像を1,000のImageNetカテゴリのいずれかに分類します。
ImageNetベンチマークで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase