🚀 xlm-mlm-tlm-xnli15-1024
このモデルは、マスク言語モデリング(MLM)と翻訳言語モデリング(TLM)の目的で事前学習され、英語の自然言語推論(NLI)データセットで微調整されたトランスフォーマーモデルです。15 言語のXNLIデータセットで評価され、クロスリンガルなテキスト分類に利用できます。
🚀 クイックスタート
このモデルは、推論時に使用する言語を指定するために言語埋め込みを使用します。詳細については、Hugging Face Multilingual Models for Inference docs を参照してください。
✨ 主な機能
- クロスリンガルテキスト分類:英語データで微調整されながら、14言語以上の文章分類能力が評価されています。
- 多言語自然言語推論:様々な言語の自然言語推論に関連する下流タスクに使用できます。
📚 ドキュメント
モデルの詳細
XLMモデルは、Guillaume LampleとAlexis Conneauによる Cross-lingual Language Model Pretraining で提案されました。xlm-mlm-tlm-xnli15-1024は、マスク言語モデリング(MLM)と翻訳言語モデリング(TLM)の目的で事前学習され、英語のNLIデータセットで微調整されたトランスフォーマーです。モデル開発者は、15のXNLI言語すべてで正しい予測を行うモデルの能力を評価しました(詳細は XNLI data card を参照)。
モデルの説明
用途
直接的な利用
このモデルは言語モデルであり、クロスリンガルなテキスト分類に使用できます。モデルは英語のテキストデータに基づいて微調整されていますが、他の14言語の文章を分類する能力が評価されています(評価 を参照)。
下流タスクでの利用
このモデルは、異なる言語の自然言語推論に関連する下流タスクに使用できます。詳細については、関連論文 を参照してください。
範囲外の利用
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはなりません。
バイアス、リスク、および制限
多くの研究が言語モデルのバイアスと公平性の問題を探っています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。
推奨事項
ユーザー(直接的なユーザーと下流のユーザーの両方)は、モデルのリスク、バイアス、および制限を認識する必要があります。
トレーニングの詳細
トレーニングの詳細は 関連論文 から収集されています。リンク、引用、および詳細については論文を参照してください。また、詳細については関連する GitHub Repo も参照してください。
トレーニングデータ
モデル開発者は以下のように書いています。
私たちはWikiExtractor2を使用してWikipediaのダンプから生の文章を抽出し、CLMとMLMの目的のための単言語データとして使用します。TLMの目的のために、Conneau et al. (2018b) と同様に、英語を含む並列データのみを使用します。
- 具体的には、フランス語、スペイン語、ロシア語、アラビア語、中国語にはMultiUN (Ziemski et al., 2016) を、ヒンディー語にはIIT Bombayコーパス (Anoop et al., 2018) を使用します。
- 私たちは、OPUS 3ウェブサイトTiedemann (2012) から以下のコーパスを抽出します:ドイツ語、ギリシャ語、ブルガリア語にはEUbookshopコーパス、トルコ語、ベトナム語、タイ語にはOpenSubtitles 2018、ウルドゥー語とスワヒリ語にはTanzil、スワヒリ語にはGlobalVoices。
- 中国語、日本語、タイ語には、それぞれChang et al. (2008) のトークナイザー、Kytea4トークナイザー、PyThaiNLP5トークナイザーを使用します。
- 他のすべての言語には、Moses (Koehn et al., 2007) が提供するトークナイザーを使用し、必要に応じてデフォルトの英語トークナイザーにフォールバックします。
微調整には、開発者は英語のNLIデータセットを使用しました(XNLI data card を参照)。
トレーニング手順
前処理
モデル開発者は以下のように書いています。
私たちはfastBPEを使用してBPEコードを学習し、単語をサブワード単位に分割します。BPEコードは、すべての言語からサンプリングされた文章の連結に対して、セクション3.1で提示された方法に従って学習されます。
速度、サイズ、時間
モデル開発者は以下のように書いています。
私たちは、1024の隠れユニット、8つのヘッド、GELU活性化関数 (Hendrycks and Gimpel, 2016)、0.1のドロップアウト率、および学習された位置埋め込みを持つトランスフォーマーアーキテクチャを使用します。私たちは、Adamオプティマイザー (Kingma and Ba, 2014)、線形ウォームアップ (Vaswani et al., 2017)、および10^−4から5.10^−4まで変化する学習率でモデルをトレーニングします。
CLMとMLMの目的のために、私たちは256トークンのストリームとサイズ64のミニバッチを使用します。Devlin et al. (2018) とは異なり、ミニバッチ内のシーケンスは、セクション3.2で説明されているように、2つ以上の連続した文章を含むことができます。TLMの目的のために、私たちは、長さが似ている文章で構成される4000トークンのミニバッチをサンプリングします。私たちは、言語全体の平均パープレキシティをトレーニングの停止基準として使用します。機械翻訳のために、私たちは6層のみを使用し、2000トークンのミニバッチを作成します。
XNLIで微調整する際に、私たちはサイズ8または16のミニバッチを使用し、文章の長さを256語に制限します。私たちは80kのBPE分割と95kの語彙を使用し、XNLI言語のWikipedia上で12層のモデルをトレーニングします。私たちは、Adamオプティマイザーの学習率を5.10−4から2.10−4の値でサンプリングし、20000のランダムサンプルの小さな評価エポックを使用します。私たちは、トランスフォーマーの最後の層の最初の隠れ状態を、ランダムに初期化された最終線形分類器の入力として使用し、すべてのパラメータを微調整します。私たちの実験では、最後の層の最大プーリングまたは平均プーリングを使用するよりも、最初の隠れ状態を使用する方がうまくいきませんでした。
私たちはすべてのモデルをPyTorch (Paszke et al., 2017) で実装し、言語モデリングタスクには64個のVolta GPUで、MTタスクには8個のGPUでトレーニングします。私たちはfloat16演算を使用してトレーニングを高速化し、モデルのメモリ使用量を削減します。
評価
テストデータ、要因、およびメトリクス
モデルを英語のNLIデータセットで微調整した後、モデル開発者はXNLIデータとテスト精度のメトリクスを使用して、15のXNLI言語で正しい予測を行うモデルの能力を評価しました。詳細については、関連論文 を参照してください。
結果
言語 |
en |
fr |
es |
de |
el |
bg |
ru |
tr |
ar |
vi |
th |
zh |
hi |
sw |
ur |
精度 |
85.0 |
78.7 |
78.9 |
77.8 |
76.6 |
77.4 |
75.3 |
72.5 |
73.1 |
76.1 |
73.2 |
76.5 |
69.6 |
68.4 |
67.3 |
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
- ハードウェアタイプ:64個のVolta GPU
- 使用時間:詳細情報が必要
- クラウドプロバイダー:詳細情報が必要
- コンピュートリージョン:詳細情報が必要
- 排出された炭素量:詳細情報が必要
技術仕様
詳細は 関連論文 から収集されています。リンク、引用、および詳細については論文を参照してください。また、詳細については関連する GitHub Repo も参照してください。
モデルアーキテクチャと目的
xlm-mlm-tlm-xnli15-1024は、マスク言語モデリング(MLM)と翻訳言語モデリング(TLM)の目的で事前学習され、英語のNLIデータセットで微調整されたトランスフォーマーです。TLMの目的について、開発者は以下のように書いています。
私たちは、クロスリンガルな事前学習を改善するための新しい翻訳言語モデリング(TLM)の目的を導入します。私たちのTLMの目的はMLMの拡張であり、単言語のテキストストリームを考慮する代わりに、図1に示すように並列文章を連結します。私たちは、ソース文章とターゲット文章の両方で単語をランダムにマスクします。英語の文章でマスクされた単語を予測するために、モデルは周囲の英語の単語またはフランス語の翻訳にアテンションを向けることができ、モデルに英語とフランス語の表現をアラインさせることを促します。
コンピュートインフラストラクチャ
ハードウェアとソフトウェア
開発者は以下のように書いています。
私たちはすべてのモデルをPyTorch (Paszke et al., 2017) で実装し、言語モデリングタスクには64個のVolta GPUで、MTタスクには8個のGPUでトレーニングします。私たちはfloat16演算を使用してトレーニングを高速化し、モデルのメモリ使用量を削減します。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
モデルカードの作成者
このモデルカードは、Hugging Faceのチームによって作成されました。
📄 ライセンス
このモデルはCC-BY-NC-4.0ライセンスの下で提供されています。