🚀 XLM-RoBERTa (大規模モデル)
XLM-RoBERTaモデルは、100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。このモデルは、Conneauらによる論文 Unsupervised Cross-lingual Representation Learning at Scale で紹介され、このリポジトリ で最初に公開されました。
なお、XLM-RoBERTaを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。
🚀 クイックスタート
XLM-RoBERTaモデルを使ったマスク言語モデリングの基本的な使い方を紹介します。以下のコードでモデルを直接使用できます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='xlm-roberta-large')
>>> unmasker("Hello I'm a <mask> model.")
[{'score': 0.10563907772302628,
'sequence': "Hello I'm a fashion model.",
'token': 54543,
'token_str': 'fashion'},
{'score': 0.08015287667512894,
'sequence': "Hello I'm a new model.",
'token': 3525,
'token_str': 'new'},
{'score': 0.033413201570510864,
'sequence': "Hello I'm a model model.",
'token': 3299,
'token_str': 'model'},
{'score': 0.030217764899134636,
'sequence': "Hello I'm a French model.",
'token': 92265,
'token_str': 'French'},
{'score': 0.026436051353812218,
'sequence': "Hello I'm a sexy model.",
'token': 17473,
'token_str': 'sexy'}]
✨ 主な機能
- 多言語対応:100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されており、多言語の文脈理解が可能です。
- 双方向表現学習:Masked language modeling (MLM) 目的で事前学習されており、文の双方向表現を学習できます。
📦 インストール
このモデルを使用するには、transformers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
マスク言語モデリングのパイプラインでこのモデルを直接使用する方法は以下の通りです。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='xlm-roberta-large')
>>> unmasker("Hello I'm a <mask> model.")
[{'score': 0.10563907772302628,
'sequence': "Hello I'm a fashion model.",
'token': 54543,
'token_str': 'fashion'},
{'score': 0.08015287667512894,
'sequence': "Hello I'm a new model.",
'token': 3525,
'token_str': 'new'},
{'score': 0.033413201570510864,
'sequence': "Hello I'm a model model.",
'token': 3299,
'token_str': 'model'},
{'score': 0.030217764899134636,
'sequence': "Hello I'm a French model.",
'token': 92265,
'token_str': 'French'},
{'score': 0.026436051353812218,
'sequence': "Hello I'm a sexy model.",
'token': 17473,
'token_str': 'sexy'}]
高度な使用法
与えられたテキストの特徴量を取得する方法は以下の通りです。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large')
model = AutoModelForMaskedLM.from_pretrained("xlm-roberta-large")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
📚 ドキュメント
モデルの説明
XLM-RoBERTaはRoBERTaの多言語バージョンです。100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。
RoBERTaは、自己教師付き学習方式で大規模コーパスに対して事前学習されたトランスフォーマーモデルです。つまり、人間が何らかの形でラベル付けを行わず、生のテキストのみを使用して、自動的なプロセスで入力とラベルを生成して事前学習されています(このため、大量の公開データを使用できます)。
より正確には、Masked language modeling (MLM) 目的で事前学習されています。文を入力として受け取り、モデルは入力の中の15%の単語をランダムにマスクした後、マスクされた文全体をモデルに通して、マスクされた単語を予測する必要があります。これは、通常は単語を順番に見る従来の再帰型ニューラルネットワーク (RNN) や、内部的に未来のトークンをマスクするGPTのような自己回帰モデルとは異なり、文の双方向表現を学習することができます。
このようにして、モデルは100言語の内部表現を学習し、それを下流タスクに有用な特徴量を抽出するために使用することができます。たとえば、ラベル付きの文のデータセットがある場合、XLM-RoBERTaモデルが生成する特徴量を入力として、標準的な分類器を学習することができます。
想定される用途と制限
生のモデルをマスク言語モデリングに使用することもできますが、主に下流タスクでファインチューニングすることを想定しています。モデルハブ を参照して、あなたが興味のあるタスクでファインチューニングされたバージョンを探してください。
このモデルは、主に文全体(場合によってはマスクされた文)を使用して決定を行うタスク、たとえばシーケンス分類、トークン分類、質問応答などでファインチューニングすることを目的としています。テキスト生成などのタスクについては、GPT2のようなモデルを検討する必要があります。
BibTeX引用
@article{DBLP:journals/corr/abs-1911-02116,
author = {Alexis Conneau and
Kartikay Khandelwal and
Naman Goyal and
Vishrav Chaudhary and
Guillaume Wenzek and
Francisco Guzm{\'{a}}n and
Edouard Grave and
Myle Ott and
Luke Zettlemoyer and
Veselin Stoyanov},
title = {Unsupervised Cross-lingual Representation Learning at Scale},
journal = {CoRR},
volume = {abs/1911.02116},
year = {2019},
url = {http://arxiv.org/abs/1911.02116},
eprinttype = {arXiv},
eprint = {1911.02116},
timestamp = {Mon, 11 Nov 2019 18:38:09 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1911-02116.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
タグと言語情報
属性 |
詳情 |
タグ |
exbert |
対応言語 |
多言語(af, am, ar, as, az, be, bg, bn, br, bs, ca, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fr, fy, ga, gd, gl, gu, ha, he, hi, hr, hu, hy, id, is, it, ja, jv, ka, kk, km, kn, ko, ku, ky, la, lo, lt, lv, mg, mk, ml, mn, mr, ms, my, ne, nl, no, om, or, pa, pl, ps, pt, ro, ru, sa, sd, si, sk, sl, so, sq, sr, su, sv, sw, ta, te, th, tl, tr, ug, uk, ur, uz, vi, xh, yi, zh) |
ライセンス
このモデルはMITライセンスの下で提供されています。