XLM-RoBERTa-XLオープンソース多言語モデル - 100言語をサポート、無料で利用可能！

ホーム

Xlm Roberta Xl

facebookによって開発

XLM-RoBERTa-XLは2.5TBの精選されたCommonCrawlデータで事前学習された多言語モデルで、100言語をカバーしています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #超大規模多言語 #マスク言語モデリング #100言語サポート

ダウンロード数 53.53k

リリース時間 : 3/2/2022

モデル概要

XLM-RoBERTa-XLはRoBERTaの超大型多言語版で、マスク言語モデリング(MLM)目標を用いて事前学習され、主に下流タスクのファインチューニングに使用されます。

モデル特徴

多言語サポート

100言語の事前学習とファインチューニングをサポート

大規模事前学習

2.5TBの精選されたCommonCrawlデータに基づく事前学習

マスク言語モデリング

MLM目標を用いた事前学習で、マスクされた単語を予測可能

モデル能力

多言語テキスト理解

マスク言語予測

下流タスクのファインチューニング

使用事例

自然言語処理

シーケンス分類

テキスト分類タスクに使用可能

トークン分類

固有表現認識などのタスクに適しています

質問応答システム

多言語質問応答システムの構築に使用可能

🚀 XLM-RoBERTa-XL (超大サイズモデル)

XLM-RoBERTa-XLモデルは、100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。このモデルは、Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman、Alexis Conneauによる論文 Larger-Scale Transformers for Multilingual Masked Language Modeling で紹介され、このリポジトリで最初に公開されました。

免責事項: XLM-RoBERTa-XLを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

XLM-RoBERTa-XLは、RoBERTaの超大規模な多言語バージョンです。100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。このモデルは、下流のタスクに役立つ特徴量を抽出するために使用できます。

✨ 主な機能

100言語に対応した多言語モデルです。
2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。
Masked language modeling (MLM) 目的で事前学習されており、文の双方向表現を学習できます。

📚 ドキュメント

モデルの説明

XLM-RoBERTa-XLは、RoBERTaの超大規模な多言語バージョンです。100言語を含む2.5TBのフィルタリングされたCommonCrawlデータで事前学習されています。

RoBERTaは、自己教師付き学習方式で大規模コーパスに対して事前学習されたトランスフォーマーモデルです。つまり、人間が何らかの形でラベル付けを行わず、生のテキストのみを使用して、自動的に入力とラベルを生成するプロセスで事前学習されます（このため、大量の公開データを使用できます）。

より正確には、Masked language modeling (MLM) 目的で事前学習されています。文を入力として受け取り、モデルは入力の単語の15%をランダムにマスクし、そのマスクされた文全体をモデルに通して、マスクされた単語を予測する必要があります。これは、通常は単語を順番に見る従来の再帰型ニューラルネットワーク (RNN) や、内部的に未来のトークンをマスクするGPTのような自己回帰型モデルとは異なります。これにより、モデルは文の双方向表現を学習することができます。

このようにして、モデルは100言語の内部表現を学習し、下流のタスクに役立つ特徴量を抽出するために使用できます。たとえば、ラベル付けされた文のデータセットがある場合、XLM-RoBERTa-XLモデルが生成する特徴量を入力として、標準的な分類器を学習させることができます。

想定される用途と制限

生のモデルをMasked language modelingに使用することもできますが、主に下流のタスクで微調整することを想定しています。興味のあるタスクに関する微調整済みのバージョンを探すには、モデルハブを参照してください。

このモデルは、主に文全体（潜在的にマスクされた）を使用して判断を下すタスク、例えばシーケンス分類、トークン分類、質問応答などで微調整することを目的としています。テキスト生成のようなタスクには、GPT2のようなモデルを検討する必要があります。

💻 使用例

基本的な使用法

このモデルをMasked language modelingのパイプラインで直接使用することができます。

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='facebook/xlm-roberta-xl')
>>> unmasker("Europe is a <mask> continent.")

[{'score': 0.08562745153903961,
  'token': 38043,
  'token_str': 'living',
  'sequence': 'Europe is a living continent.'},
 {'score': 0.0799778401851654,
  'token': 103494,
  'token_str': 'dead',
  'sequence': 'Europe is a dead continent.'},
 {'score': 0.046154674142599106,
  'token': 72856,
  'token_str': 'lost',
  'sequence': 'Europe is a lost continent.'},
 {'score': 0.04358183592557907,
  'token': 19336,
  'token_str': 'small',
  'sequence': 'Europe is a small continent.'},
 {'score': 0.040570393204689026,
  'token': 34923,
  'token_str': 'beautiful',
  'sequence': 'Europe is a beautiful continent.'}]

高度な使用法

このモデルを使用して、PyTorchで与えられたテキストの特徴量を取得する方法は次の通りです。

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('facebook/xlm-roberta-xl')
model = AutoModelForMaskedLM.from_pretrained("facebook/xlm-roberta-xl")

# prepare input
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

BibTeX引用

@article{DBLP:journals/corr/abs-2105-00572,
  author    = {Naman Goyal and
               Jingfei Du and
               Myle Ott and
               Giri Anantharaman and
               Alexis Conneau},
  title     = {Larger-Scale Transformers for Multilingual Masked Language Modeling},
  journal   = {CoRR},
  volume    = {abs/2105.00572},
  year      = {2021},
  url       = {https://arxiv.org/abs/2105.00572},
  eprinttype = {arXiv},
  eprint    = {2105.00572},
  timestamp = {Wed, 12 May 2021 15:54:31 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2105-00572.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}