B

Beit Large Patch16 384

microsoftによって開発
BEiTはビジュアルトランスフォーマーに基づく画像分類モデルで、ImageNet-21kで自己教師あり方式で事前学習され、ImageNet-1kでファインチューニングされています。
ダウンロード数 44
リリース時間 : 3/2/2022

モデル概要

BEiTモデルはビジュアルトランスフォーマー(ViT)で、大量の画像で自己教師あり方式で事前学習され、ファインチューニングによって画像分類タスクに使用されます。

モデル特徴

自己教師あり事前学習
ImageNet-21kデータセットを使用して自己教師あり事前学習を行い、画像の内在的表現を学習します。
高解像度ファインチューニング
ImageNet-1kで384x384解像度でファインチューニングを行い、分類性能を向上させます。
相対位置埋め込み
絶対位置埋め込みではなく相対位置埋め込み(T5と類似)を使用し、モデルの柔軟性を強化します。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
ImageNet画像分類
画像を1,000のImageNetカテゴリのいずれかに分類します。
ImageNetデータセットで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase