🚀 Data2Vec-Vision (大型モデル、事前学習のみ)
BEiTモデルは、解像度224x224のImageNet-1k(120万枚の画像、1000クラス)で自己教師付き学習方式で事前学習されています。このモデルは、Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auliによる論文 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language で紹介され、このリポジトリ で最初に公開されました。
免責事項: Facebookチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。
🚀 クイックスタート
このモデルは画像分類に使用できます。興味のあるタスクに関するファインチューニング済みのバージョンを探すには、モデルハブ を参照してください。
✨ 主な機能
- 画像分類タスクに使用可能です。
- 自己教師付き学習方式で事前学習されており、汎用性が高いです。
📦 インストール
元のREADMEにインストール手順は記載されていないため、このセクションは省略されます。
💻 使用例
元のREADMEにコード例は記載されていないため、このセクションは省略されます。
📚 ドキュメント
事前学習方法

詳細については、公式論文 を参照してください。
概要
自己教師付き学習の一般的な考え方はモダリティを問わず同じですが、実際のアルゴリズムや目的は大きく異なります。なぜなら、これらは単一のモダリティを念頭に開発されているからです。一般的な自己教師付き学習に近づくために、私たちはdata2vecというフレームワークを提案します。このフレームワークは、音声、自然言語処理、コンピュータビジョンのいずれにも同じ学習方法を使用します。核心的な考え方は、標準的なTransformerアーキテクチャを使用した自己蒸留設定で、入力のマスクされたビューに基づいて、全入力データの潜在表現を予測することです。data2vecは、本質的に局所的な単語、視覚トークン、人間の音声の単位などのモダリティ固有のターゲットを予測するのではなく、入力全体の情報を含む文脈化された潜在表現を予測します。音声認識、画像分類、自然言語理解の主要なベンチマークに関する実験は、新しい最先端技術または主要なアプローチに対する競争力のあるパフォーマンスを示しています。
想定される用途と制限
このモデルは画像分類に使用できます。興味のあるタスクに関するファインチューニング済みのバージョンを探すには、モデルハブ を参照してください。
学習データ
BEiTモデルは、120万枚の画像と1000クラスから構成される ImageNet-1k データセットで事前学習されています。
学習手順
前処理
学習/検証中の画像の前処理の正確な詳細は、ここ で確認できます。
画像は同じ解像度(224x224)にリサイズ/リスケールされ、RGBチャネル全体で平均(0.5, 0.5, 0.5)、標準偏差(0.5, 0.5, 0.5)で正規化されます。
事前学習
すべての事前学習関連のハイパーパラメータについては、元の論文 と 元のコードベース を参照してください。
評価結果
いくつかの画像分類ベンチマークに関する評価結果については、元の論文の表1を参照してください。ファインチューニングに関しては、より高い解像度で最良の結果が得られます。もちろん、モデルサイズを大きくすると、パフォーマンスが向上します。
🔧 技術詳細
元のREADMEに具体的な技術詳細(50文字以上)は記載されていないため、このセクションは省略されます。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
BibTeXエントリと引用情報
@misc{https://doi.org/10.48550/arxiv.2202.03555,
doi = {10.48550/ARXIV.2202.03555},
url = {https://arxiv.org/abs/2202.03555},
author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}