🚀 Data2Vec-Text ベースモデル
data2vec 目的を使用して英語で事前学習されたモデルです。このモデルは、この論文 で紹介され、このリポジトリ で最初に公開されました。このモデルは大文字と小文字を区別します。つまり、「english」と「English」は異なるものとして扱われます。
免責事項: Data2Vec-Text を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードは Hugging Face チームによって作成されました。
🚀 クイックスタート
このモデルは、下流のタスクでファインチューニングすることを目的としています。あなたが興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブ を参照してください。
✨ 主な機能
このモデルは、音声認識、画像分類、自然言語理解の主要なベンチマークで新しい最先端技術または主要なアプローチと競争力のあるパフォーマンスを示しています。
📚 ドキュメント
事前学習方法

詳細については、公式論文 を参照してください。
概要
自己教師付き学習の一般的なアイデアはモダリティ間で同一ですが、実際のアルゴリズムと目的は大きく異なります。なぜなら、これらは単一のモダリティを念頭に開発されたからです。一般的な自己教師付き学習に近づくために、私たちは data2vec というフレームワークを提案します。これは、音声、自然言語処理、またはコンピュータビジョンのいずれにも同じ学習方法を使用します。核心的なアイデアは、標準的なTransformerアーキテクチャを使用した自己蒸留設定で、入力のマスクされたビューに基づいて、完全な入力データの潜在表現を予測することです。本質的に局所的な単語、視覚トークン、または人間の音声の単位などのモダリティ固有のターゲットを予測する代わりに、data2vecは入力全体からの情報を含む文脈化された潜在表現を予測します。音声認識、画像分類、および自然言語理解の主要なベンチマークでの実験は、新しい最先端技術または主要なアプローチと競争力のあるパフォーマンスを示しています。
想定される用途と制限
このモデルは、下流のタスクでファインチューニングすることを目的としています。あなたが興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブ を参照してください。
このモデルは、主に文全体(潜在的にマスクされた)を使用して決定を行うタスク、例えばシーケンス分類、トークン分類、または質問応答などでファインチューニングすることを目的としています。テキスト生成などのタスクには、GPT2 のようなモデルを使用する必要があります。
訓練データ
RoBERTa モデルは、5 つのデータセットの統合で事前学習されました。
- BookCorpus:11,038 冊の未公開の本で構成されるデータセット。
- 英語版ウィキペディア(リスト、表、ヘッダーを除く)。
- CC-News:2016 年 9 月から 2019 年 2 月までにクロールされた 6300 万件の英語のニュース記事を含むデータセット。
- OpenWebText:GPT-2 の学習に使用された WebText データセットをオープンソースで再現したもの。
- Stories:Winograd スキーマの物語のようなスタイルに一致するようにフィルタリングされた CommonCrawl データのサブセットを含むデータセット。
これらのデータセットを合わせると、160GB のテキストになります。
BibTeXエントリと引用情報
@misc{https://doi.org/10.48550/arxiv.2202.03555,
doi = {10.48550/ARXIV.2202.03555},
url = {https://arxiv.org/abs/2202.03555},
author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
📄 ライセンス
このモデルは MIT ライセンスの下で公開されています。