🚀 XLM-RoBERTa-XL (超大サイズモデル)
XLM-RoBERTa-XLモデルは、100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。このモデルは、Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman、Alexis Conneauによる論文 Larger-Scale Transformers for Multilingual Masked Language Modeling で紹介され、このリポジトリ で最初に公開されました。
免責事項: XLM-RoBERTa-XLを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。
🚀 クイックスタート
XLM-RoBERTa-XLは、RoBERTaの超大規模な多言語バージョンです。100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。このモデルは、下流のタスクに役立つ特徴量を抽出するために使用できます。
✨ 主な機能
- 100言語に対応した多言語モデルです。
- 2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。
- Masked language modeling (MLM) 目的で事前学習されており、文の双方向表現を学習できます。
📚 ドキュメント
モデルの説明
XLM-RoBERTa-XLは、RoBERTaの超大規模な多言語バージョンです。100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。
RoBERTaは、自己教師付き学習方式で大規模コーパスに対して事前学習されたトランスフォーマーモデルです。つまり、人間が何らかの形でラベル付けを行わず、生のテキストのみを使用して、自動的に入力とラベルを生成するプロセスで事前学習されます(このため、大量の公開データを使用できます)。
より正確には、Masked language modeling (MLM) 目的で事前学習されています。文を入力として受け取り、モデルは入力の単語の15%をランダムにマスクし、そのマスクされた文全体をモデルに通して、マスクされた単語を予測する必要があります。これは、通常は単語を順番に見る従来の再帰型ニューラルネットワーク (RNN) や、内部的に未来のトークンをマスクするGPTのような自己回帰型モデルとは異なります。これにより、モデルは文の双方向表現を学習することができます。
このようにして、モデルは100言語の内部表現を学習し、下流のタスクに役立つ特徴量を抽出するために使用できます。たとえば、ラベル付けされた文のデータセットがある場合、XLM-RoBERTa-XLモデルが生成する特徴量を入力として、標準的な分類器を学習させることができます。
想定される用途と制限
生のモデルをMasked language modelingに使用することもできますが、主に下流のタスクで微調整することを想定しています。興味のあるタスクに関する微調整済みのバージョンを探すには、モデルハブ を参照してください。
このモデルは、主に文全体(潜在的にマスクされた)を使用して判断を下すタスク、例えばシーケンス分類、トークン分類、質問応答などで微調整することを目的としています。テキスト生成のようなタスクには、GPT2のようなモデルを検討する必要があります。
💻 使用例
基本的な使用法
このモデルをMasked language modelingのパイプラインで直接使用することができます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='facebook/xlm-roberta-xl')
>>> unmasker("Europe is a <mask> continent.")
[{'score': 0.08562745153903961,
'token': 38043,
'token_str': 'living',
'sequence': 'Europe is a living continent.'},
{'score': 0.0799778401851654,
'token': 103494,
'token_str': 'dead',
'sequence': 'Europe is a dead continent.'},
{'score': 0.046154674142599106,
'token': 72856,
'token_str': 'lost',
'sequence': 'Europe is a lost continent.'},
{'score': 0.04358183592557907,
'token': 19336,
'token_str': 'small',
'sequence': 'Europe is a small continent.'},
{'score': 0.040570393204689026,
'token': 34923,
'token_str': 'beautiful',
'sequence': 'Europe is a beautiful continent.'}]
高度な使用法
このモデルを使用して、PyTorchで与えられたテキストの特徴量を取得する方法は次の通りです。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('facebook/xlm-roberta-xl')
model = AutoModelForMaskedLM.from_pretrained("facebook/xlm-roberta-xl")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
BibTeX引用
@article{DBLP:journals/corr/abs-2105-00572,
author = {Naman Goyal and
Jingfei Du and
Myle Ott and
Giri Anantharaman and
Alexis Conneau},
title = {Larger-Scale Transformers for Multilingual Masked Language Modeling},
journal = {CoRR},
volume = {abs/2105.00572},
year = {2021},
url = {https://arxiv.org/abs/2105.00572},
eprinttype = {arXiv},
eprint = {2105.00572},
timestamp = {Wed, 12 May 2021 15:54:31 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2105-00572.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。