B

Beit Large Patch16 512

microsoftによって開発
BEiTはビジュアルTransformerに基づく画像分類モデルで、自己教師付き方式でImageNet-21k上で事前学習され、ImageNet-1k上で微調整されます。
ダウンロード数 683
リリース時間 : 3/2/2022

モデル概要

BEiTモデルはBERTに似たTransformerエンコーダアーキテクチャを採用し、マスク画像モデリングによって事前学習され、高解像度画像分類タスクをサポートします。

モデル特徴

自己教師付き事前学習
ImageNet-21kデータセットを使用してマスク画像モデリングにより事前学習し、画像の一般的な表現を学習します。
高解像度対応
512x512解像度の入力をサポートし、標準の224x224解像度と比較してより多くの詳細を捉えることができます。
相対位置埋め込み
絶対位置埋め込みではなくT5に似た相対位置埋め込みを採用し、モデルの汎化能力を向上させる可能性があります。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
汎用画像分類
画像を1000のImageNetカテゴリに分類します。
ImageNet検証セットで高い精度を達成します(具体的な数値は提供されていません)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase