B

Beit Base Patch16 224

nielsrによって開発
BEiTは画像トランスフォーマーに基づく視覚モデルで、BERTのような自己教師あり事前学習手法を採用し、最初にImageNet-22kで事前学習とファインチューニングを行い、その後ImageNet-1kでさらにファインチューニングを行います。
ダウンロード数 28
リリース時間 : 3/2/2022

モデル概要

BEiTモデルは自己教師あり学習によりImageNet-22kデータセットで事前学習され、画像特徴を効果的に捉えることができ、様々な画像分類タスクに適しています。

モデル特徴

自己教師あり事前学習
BERTのような自己教師あり学習手法を採用し、大量の注釈データがなくても効果的な事前学習が可能です。
二段階ファインチューニング
最初にImageNet-22kデータセットでファインチューニングを行い、その後ImageNet-1kでさらにファインチューニングを行い、モデルの性能を向上させます。
画像トランスフォーマーアーキテクチャ
Transformerベースのアーキテクチャにより、画像中のグローバルおよびローカルな特徴を効果的に捉えることができます。

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
汎用画像分類
自然画像を分類し、画像中の主要なオブジェクトやシーンを識別します。
ImageNetなどの標準データセットで良好な性能を発揮
視覚特徴抽出
他の視覚タスクの基礎となる特徴抽出器として使用します。
物体検出、画像セグメンテーションなどの下流タスクに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase