B

Beit Base Patch16 384

microsoftによって開発
BEiTはビジョントランスフォーマーアーキテクチャに基づく画像分類モデルで、ImageNet-21kで自己教師あり方式で事前学習され、ImageNet-1kでファインチューニングされています。
ダウンロード数 146
リリース時間 : 3/2/2022

モデル概要

BEiTモデルはBERTに似たトランスフォーマーエンコーダーアーキテクチャを採用し、大規模な画像データセットで自己教師あり学習により事前学習され、画像特徴を効果的に抽出して分類タスクに利用できます。

モデル特徴

自己教師あり事前学習
ImageNet-21kデータセットを使用して自己教師あり方式で事前学習し、画像の汎用的な表現を学習します。
高解像度ファインチューニング
ImageNet-1kデータセットで384x384解像度でファインチューニングを行い、分類性能を向上させます。
相対位置エンコーディング
絶対位置エンコーディングではなくT5のような相対位置エンコーディングを採用し、画像構造の理解を強化します。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
入力画像を1000のImageNetカテゴリのいずれかに分類します。
ImageNetベンチマークで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase