B

Beit Large Patch16 224

microsoftによって開発
BEiTはVision Transformer(ViT)アーキテクチャに基づく画像分類モデルで、自己教師あり学習によりImageNet-21kで事前学習され、ImageNet-1kでファインチューニングされています。
ダウンロード数 222.46k
リリース時間 : 3/2/2022

モデル概要

BEiTモデルはBERTに似たTransformerエンコーダーアーキテクチャを採用し、マスクされた画像パッチのビジュアルトークンを予測する自己教師あり事前学習を行い、最終的に画像分類タスクに使用されます。

モデル特徴

自己教師あり事前学習
BERTに似たマスク予測手法を用いてImageNet-21kで自己教師あり事前学習を実施
相対位置エンコーディング
絶対位置エンコーディングではなくT5に似た相対位置エンコーディングを使用
効率的な特徴抽出
[CLS]トークンに依存せず、全ての画像パッチの最終隠れ状態を平均プーリングして分類

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
ImageNet画像分類
入力画像を1000のImageNetカテゴリのいずれかに分類
ImageNetベンチマークで優れた性能を発揮
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase