🚀 xlm-mlm-xnli15-1024
このモデルは、マスク言語モデリング(MLM)の目的で事前学習され、英語のNLIデータセットで微調整されたトランスフォーマーモデルです。15のXNLI言語での予測能力が評価されており、クロスリンガルなテキスト分類や自然言語推論の下流タスクに利用できます。
🚀 クイックスタート
このモデルは推論時に使用する言語を指定するために言語埋め込みを使用しています。詳細については、Hugging Face Multilingual Models for Inference docsを参照してください。
✨ 主な機能
- クロスリンガルなテキスト分類が可能です。
- 15のXNLI言語での自然言語推論の下流タスクに利用できます。
📚 ドキュメント
モデルの詳細
XLMモデルは、Guillaume LampleとAlexis ConneauによるCross-lingual Language Model Pretrainingで提案されました。xlm-mlm-xnli15-1024は、マスク言語モデリング(MLM)の目的で事前学習され、英語のNLIデータセットで微調整されたトランスフォーマーです。モデル開発者は、15のXNLI言語すべてで正しい予測を行うモデルの能力を評価しました(詳細については、XNLI data cardを参照)。
モデルの説明
- 開発者: Guillaume Lample, Alexis Conneau, 関連論文を参照
- モデルタイプ: 言語モデル
- 言語 (NLP): 英語; 15の言語で評価されています(XNLI data cardを参照)
- ライセンス: CC-BY-NC-4.0
- 関連モデル: XLM models
- 詳細情報のリソース:
使用方法
直接利用
このモデルは言語モデルです。クロスリンガルなテキスト分類に使用できます。モデルは英語のテキストデータに基づいて微調整されていますが、他の14の言語の文を分類するモデルの能力が評価されています(評価を参照)。
下流利用
このモデルは、さまざまな言語の自然言語推論に関連する下流タスクに使用できます。詳細については、関連論文を参照してください。
範囲外の利用
このモデルは、人々に敵意や疎外感を抱かせる環境を意図的に作り出すために使用してはなりません。
バイアス、リスク、および制限
言語モデルのバイアスと公平性の問題については、多くの研究が行われています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。
推奨事項
ユーザー(直接利用者と下流利用者の両方)は、モデルのリスク、バイアス、および制限を認識する必要があります。
トレーニングの詳細
トレーニングの詳細は、関連論文から引用されています。リンク、引用、および詳細については、論文を参照してください。また、詳細については、関連するGitHubリポジトリも参照してください。
トレーニングデータ
モデル開発者は次のように書いています。
私たちはWikiExtractor2を使用してWikipediaのダンプから生の文を抽出し、CLMとMLMの目的のために単言語データとして使用します。TLMの目的のために、私たちは英語を含む並列データのみを使用します。Conneau et al. (2018b)と同様です。
- 正確には、私たちはフランス語、スペイン語、ロシア語、アラビア語、中国語にはMultiUN (Ziemski et al., 2016)を使用し、ヒンディー語にはIIT Bombayコーパス (Anoop et al., 2018)を使用します。
- 私たちはOPUS 3ウェブサイトTiedemann (2012)から次のコーパスを抽出します。ドイツ語、ギリシャ語、ブルガリア語のEUbookshopコーパス、トルコ語、ベトナム語、タイ語のOpenSubtitles 2018、ウルドゥー語とスワヒリ語のTanzil、スワヒリ語のGlobalVoices。
- 中国語、日本語、タイ語については、それぞれChang et al. (2008)のトークナイザー、Kytea4トークナイザー、PyThaiNLP5トークナイザーを使用します。
- 他のすべての言語については、私たちはMoses (Koehn et al., 2007)が提供するトークナイザーを使用し、必要に応じてデフォルトの英語トークナイザーにフォールバックします。
微調整には、開発者は英語のNLIデータセットを使用しました(XNLI data cardを参照)。
トレーニング手順
前処理
モデル開発者は次のように書いています。
私たちはfastBPEを使用してBPEコードを学習し、単語をサブワード単位に分割します。BPEコードは、すべての言語からサンプリングされた文の連結に対して学習され、セクション3.1で提示された方法に従います。
速度、サイズ、時間
モデル開発者は次のように書いています。
私たちは、1024個の隠れユニット、8個のヘッド、GELU活性化関数 (Hendrycks and Gimpel, 2016)、0.1のドロップアウト率、および学習された位置埋め込みを持つトランスフォーマーアーキテクチャを使用します。私たちは、Adamオプティマイザー (Kingma and Ba, 2014)、線形ウォームアップ (Vaswani et al., 2017)、および10^−4から5.10^−4まで変化する学習率でモデルをトレーニングします。
CLMとMLMの目的のために、私たちは256トークンのストリームとサイズ64のミニバッチを使用します。Devlin et al. (2018)とは異なり、ミニバッチ内のシーケンスには、セクション3.2で説明されているように、2つ以上の連続した文を含めることができます。TLMの目的のために、私たちは、長さが似ている文で構成される4000トークンのミニバッチをサンプリングします。私たちは、言語全体の平均パープレキシティをトレーニングの停止基準として使用します。機械翻訳については、私たちは6層のみを使用し、2000トークンのミニバッチを作成します。
XNLIで微調整するとき、私たちはサイズ8または16のミニバッチを使用し、文の長さを256語にクリップします。私たちは80kのBPE分割と95kの語彙を使用し、XNLI言語のWikipedia上で12層のモデルをトレーニングします。私たちは、Adamオプティマイザーの学習率を5.10−4から2.10−4の値でサンプリングし、20000のランダムサンプルの小さな評価エポックを使用します。私たちは、トランスフォーマーの最後の層の最初の隠れ状態を、ランダムに初期化された最終線形分類器への入力として使用し、すべてのパラメータを微調整します。私たちの実験では、最後の層の最大プーリングまたは平均プーリングのいずれかを使用することは、最初の隠れ状態を使用するよりもうまくいきませんでした。
私たちはすべてのモデルをPy-Torch (Paszke et al., 2017)で実装し、言語モデリングタスクについては64個のVolta GPUで、MTタスクについては8個のGPUでトレーニングします。私たちはfloat16演算を使用してトレーニングを高速化し、モデルのメモリ使用量を削減します。
評価
テストデータ、要因、およびメトリック
モデルを英語のNLIデータセットで微調整した後、モデル開発者はXNLIデータとテスト精度のメトリックを使用して、15のXNLI言語で正しい予測を行うモデルの能力を評価しました。詳細については、関連論文を参照してください。
結果
言語 |
英語 |
フランス語 |
スペイン語 |
ドイツ語 |
ギリシャ語 |
ブルガリア語 |
ロシア語 |
トルコ語 |
アラビア語 |
ベトナム語 |
タイ語 |
中国語 |
ヒンディー語 |
スワヒリ語 |
ウルドゥー語 |
精度 |
83.2 |
76.5 |
76.3 |
74.2 |
73.1 |
74.0 |
73.1 |
67.8 |
68.5 |
71.2 |
69.2 |
71.9 |
65.7 |
64.6 |
63.4 |
環境への影響
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。
- ハードウェアタイプ: 64個のVolta GPU
- 使用時間: 詳細情報が必要
- クラウドプロバイダー: 詳細情報が必要
- コンピュートリージョン: 詳細情報が必要
- 排出された炭素量: 詳細情報が必要
技術仕様
詳細は、関連論文から引用されています。リンク、引用、および詳細については、論文を参照してください。また、詳細については、関連するGitHubリポジトリも参照してください。
モデルアーキテクチャと目的
xlm-mlm-xnli15-1024は、マスク言語モデリング(MLM)の目的で事前学習され、英語のNLIデータセットで微調整されたトランスフォーマーです。MLMの目的について、開発者は次のように書いています。
私たちはまた、Devlin et al. (2018)のマスク言語モデリング(MLM)の目的を考慮します。これは、Clozeタスク(Taylor, 1953)としても知られています。Devlin et al. (2018)に従って、私たちはテキストストリームからBPEトークンの15%をランダムにサンプリングし、80%の確率で[MASK]トークンに置き換え、10%の確率でランダムなトークンに置き換え、10%の確率でそのままにしておきます。私たちのアプローチとDevlin et al. (2018)のMLMの違いには、任意の数の文のテキストストリーム(256トークンで切り捨てられる)を使用することが含まれます。文のペアの代わりに。まれなトークンと頻繁なトークン(例えば、句読点やストップワード)の不均衡を解消するために、私たちはまた、Mikolov et al. (2013b)に似たアプローチを使用して頻繁な出力をサブサンプリングします。テキストストリーム内のトークンは、多項分布に従ってサンプリングされ、その重みはそれらの逆頻度の平方根に比例します。私たちのMLMの目的は、図1に示されています。
コンピュートインフラストラクチャ
ハードウェアとソフトウェア
開発者は次のように書いています。
私たちはすべてのモデルをPyTorch (Paszke et al., 2017)で実装し、言語モデリングタスクについては64個のVolta GPUで、MTタスクについては8個のGPUでトレーニングします。私たちはfloat16演算を使用してトレーニングを高速化し、モデルのメモリ使用量を削減します。
📄 ライセンス
このモデルはCC-BY-NC-4.0ライセンスの下で提供されています。
📄 引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
👥 モデルカードの作成者
このモデルカードは、Hugging Faceのチームによって作成されました。