🚀 XLM-RoBERTa-XL(超大型モデル)
XLM-RoBERTa-XL モデルは、100 種類の言語を含む 2.5TB のフィルタリングされた CommonCrawl データで事前学習されています。このモデルは、Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman、Alexis Conneau らによって論文 Larger-Scale Transformers for Multilingual Masked Language Modeling で提案され、このリポジトリ で初めて公開されました。
声明: XLM-RoBERTa-XL を公開したチームはこのモデルのモデルカードを作成していません。このモデルカードは Hugging Face チームによって作成されています。
✨ 主な機能
- 多言語対応:英語、中国語、フランス語、ドイツ語など、最大 100 種類の言語をサポートします。
- 大規模事前学習:2.5TB のフィルタリングされた CommonCrawl データで事前学習され、豊富な言語知識を学習しています。
- 双方向表現学習:マスク言語モデル(MLM)の目標で事前学習され、文の双方向表現を学習することができます。
📚 ドキュメント
モデルの説明
XLM-RoBERTa-XL は、RoBERTa の超大型多言語バージョンで、100 種類の言語を含む 2.5TB のフィルタリングされた CommonCrawl データで事前学習されています。
RoBERTa は、大規模なコーパスで自己教師付き方式で事前学習された Transformer モデルです。つまり、人間による注釈付けを必要とせずに(したがって、大量の公開データを使用できます)、元のテキストのみで事前学習され、自動プロセスによってこれらのテキストから入力とラベルを生成します。
より正確には、マスク言語モデル(MLM)を目標として事前学習されます。文に対して、モデルは入力の 15% の単語をランダムにマスクし、マスクされた文全体をモデルに入力して、マスクされた単語を予測します。これは、通常単語を逐次処理する従来の再帰型ニューラルネットワーク(RNN)とは異なり、また、内部で未来のトークンをマスクする GPT のような自己回帰型モデルとも異なります。この方法により、モデルは文の双方向表現を学習することができます。
このようにして、モデルは 100 種類の言語の内部表現を学習し、これらの表現は下流タスクに有用な特徴を抽出するために使用できます。たとえば、注釈付きの文のデータセットがある場合、XLM-RoBERTa-XL モデルが生成する特徴を入力として使用して、標準的な分類器をトレーニングすることができます。
想定される用途と制限
元のモデルをマスク言語モデリングに直接使用することもできますが、主に下流タスクでの微調整に使用されます。モデルセンター を参照して、関心のあるタスクに対して微調整されたバージョンを探してください。
このモデルは、主に文全体(マスクされた文も含む)を使用して決定を行うタスク、たとえばシーケンス分類、トークン分類、または質問応答タスクなどでの微調整を目的としています。テキスト生成などのタスクには、GPT2 のようなモデルを検討する必要があります。
💻 使用例
基本的な使用法
このモデルを直接マスク言語モデリングに使用することができます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='facebook/xlm-roberta-xxl')
>>> unmasker("Europe is a <mask> continent.")
[{'score': 0.22996895015239716,
'token': 28811,
'token_str': 'European',
'sequence': 'Europe is a European continent.'},
{'score': 0.14307449758052826,
'token': 21334,
'token_str': 'large',
'sequence': 'Europe is a large continent.'},
{'score': 0.12239163368940353,
'token': 19336,
'token_str': 'small',
'sequence': 'Europe is a small continent.'},
{'score': 0.07025063782930374,
'token': 18410,
'token_str': 'vast',
'sequence': 'Europe is a vast continent.'},
{'score': 0.032869212329387665,
'token': 6957,
'token_str': 'big',
'sequence': 'Europe is a big continent.'}]
高度な使用法
以下は、PyTorch でこのモデルを使用して与えられたテキストの特徴を取得する方法です。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('facebook/xlm-roberta-xxl')
model = AutoModelForMaskedLM.from_pretrained("facebook/xlm-roberta-xxl")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
BibTeX 引用と引用情報
@article{DBLP:journals/corr/abs-2105-00572,
author = {Naman Goyal and
Jingfei Du and
Myle Ott and
Giri Anantharaman and
Alexis Conneau},
title = {Larger-Scale Transformers for Multilingual Masked Language Modeling},
journal = {CoRR},
volume = {abs/2105.00572},
year = {2021},
url = {https://arxiv.org/abs/2105.00572},
eprinttype = {arXiv},
eprint = {2105.00572},
timestamp = {Wed, 12 May 2021 15:54:31 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2105-00572.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 ライセンス
このモデルは MIT ライセンスで提供されています。
属性 |
詳細 |
サポート言語 |
多言語、af、am、ar など 100 種類の言語を含む |
ライセンス |
MIT |