xlm-mlm-tlm-xnli15-1024オープンソースモデル - 15言語のテキスト分類タスクをサポート

ホーム

Xlm Mlm Tlm Xnli15 1024

FacebookAIによって開発

XLMは、マスク言語モデリングと翻訳言語モデリングの目的で事前学習された異言語Transformerモデルで、15言語のテキスト分類タスクをサポートします。

大規模言語モデル

Transformers

複数言語対応#異言語推論 #多言語NLI #マスク言語モデリング

ダウンロード数 198

リリース時間 : 3/2/2022

モデル概要

このモデルはTransformerアーキテクチャに基づいており、多言語事前学習と英語NLIデータセットの微調整により、15言語の異言語テキスト分類タスクを処理できます。

モデル特徴

異言語能力

多言語事前学習と翻訳言語モデリングの目的により、モデルは15言語のテキスト分類タスクを処理できます。

効率的な事前学習

マスク言語モデリング(MLM)と翻訳言語モデリング(TLM)の目的を使用して事前学習を行い、異言語表現を最適化します。

多言語評価

15言語のXNLIデータセットで全面的に評価され、良好な異言語移行能力を示しています。

モデル能力

異言語テキスト分類

自然言語推論

多言語テキスト理解

使用事例

自然言語処理

異言語テキスト分類

15言語のテキストに対して分類タスクを行う

XNLIデータセットで67.3 - 85.0%の正解率を達成

多言語コンテンツ分析

異なる言語のテキストコンテンツを分析し、重要な情報を抽出する

🚀 xlm-mlm-tlm-xnli15-1024

このモデルは、マスク言語モデリング（MLM）と翻訳言語モデリング（TLM）の目的で事前学習され、英語の自然言語推論（NLI）データセットで微調整されたトランスフォーマーモデルです。15 言語のXNLIデータセットで評価され、クロスリンガルなテキスト分類に利用できます。

🚀 クイックスタート

このモデルは、推論時に使用する言語を指定するために言語埋め込みを使用します。詳細については、Hugging Face Multilingual Models for Inference docs を参照してください。

✨ 主な機能

クロスリンガルテキスト分類：英語データで微調整されながら、14言語以上の文章分類能力が評価されています。
多言語自然言語推論：様々な言語の自然言語推論に関連する下流タスクに使用できます。

📚 ドキュメント

モデルの詳細

XLMモデルは、Guillaume LampleとAlexis Conneauによる Cross-lingual Language Model Pretraining で提案されました。xlm-mlm-tlm-xnli15-1024は、マスク言語モデリング（MLM）と翻訳言語モデリング（TLM）の目的で事前学習され、英語のNLIデータセットで微調整されたトランスフォーマーです。モデル開発者は、15のXNLI言語すべてで正しい予測を行うモデルの能力を評価しました（詳細は XNLI data card を参照）。

モデルの説明

属性	详情
開発者	Guillaume Lample, Alexis Conneau, 関連論文参照
モデルタイプ	言語モデル
言語	英語; 15言語で評価（XNLI data card 参照）
ライセンス	CC-BY-NC-4.0
関連モデル	XLM models
詳細情報リソース	関連論文、GitHub Repo for XLM、GitHub Repo for XNLI、XNLI data card、Hugging Face Multilingual Models for Inference docs

用途

直接的な利用

このモデルは言語モデルであり、クロスリンガルなテキスト分類に使用できます。モデルは英語のテキストデータに基づいて微調整されていますが、他の14言語の文章を分類する能力が評価されています（評価を参照）。

下流タスクでの利用

このモデルは、異なる言語の自然言語推論に関連する下流タスクに使用できます。詳細については、関連論文を参照してください。

範囲外の利用

このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはなりません。

バイアス、リスク、および制限

多くの研究が言語モデルのバイアスと公平性の問題を探っています（例えば、Sheng et al. (2021) および Bender et al. (2021) を参照）。

推奨事項

ユーザー（直接的なユーザーと下流のユーザーの両方）は、モデルのリスク、バイアス、および制限を認識する必要があります。

トレーニングの詳細

トレーニングの詳細は関連論文から収集されています。リンク、引用、および詳細については論文を参照してください。また、詳細については関連する GitHub Repo も参照してください。

トレーニングデータ

モデル開発者は以下のように書いています。

私たちはWikiExtractor2を使用してWikipediaのダンプから生の文章を抽出し、CLMとMLMの目的のための単言語データとして使用します。TLMの目的のために、Conneau et al. (2018b) と同様に、英語を含む並列データのみを使用します。

具体的には、フランス語、スペイン語、ロシア語、アラビア語、中国語にはMultiUN (Ziemski et al., 2016) を、ヒンディー語にはIIT Bombayコーパス (Anoop et al., 2018) を使用します。

私たちは、OPUS 3ウェブサイトTiedemann (2012) から以下のコーパスを抽出します：ドイツ語、ギリシャ語、ブルガリア語にはEUbookshopコーパス、トルコ語、ベトナム語、タイ語にはOpenSubtitles 2018、ウルドゥー語とスワヒリ語にはTanzil、スワヒリ語にはGlobalVoices。

中国語、日本語、タイ語には、それぞれChang et al. (2008) のトークナイザー、Kytea4トークナイザー、PyThaiNLP5トークナイザーを使用します。

他のすべての言語には、Moses (Koehn et al., 2007) が提供するトークナイザーを使用し、必要に応じてデフォルトの英語トークナイザーにフォールバックします。

微調整には、開発者は英語のNLIデータセットを使用しました（XNLI data card を参照）。

トレーニング手順

前処理

モデル開発者は以下のように書いています。

私たちはfastBPEを使用してBPEコードを学習し、単語をサブワード単位に分割します。BPEコードは、すべての言語からサンプリングされた文章の連結に対して、セクション3.1で提示された方法に従って学習されます。

速度、サイズ、時間

モデル開発者は以下のように書いています。

私たちは、1024の隠れユニット、8つのヘッド、GELU活性化関数 (Hendrycks and Gimpel, 2016)、0.1のドロップアウト率、および学習された位置埋め込みを持つトランスフォーマーアーキテクチャを使用します。私たちは、Adamオプティマイザー (Kingma and Ba, 2014)、線形ウォームアップ (Vaswani et al., 2017)、および10^−4から5.10^−4まで変化する学習率でモデルをトレーニングします。

CLMとMLMの目的のために、私たちは256トークンのストリームとサイズ64のミニバッチを使用します。Devlin et al. (2018) とは異なり、ミニバッチ内のシーケンスは、セクション3.2で説明されているように、2つ以上の連続した文章を含むことができます。TLMの目的のために、私たちは、長さが似ている文章で構成される4000トークンのミニバッチをサンプリングします。私たちは、言語全体の平均パープレキシティをトレーニングの停止基準として使用します。機械翻訳のために、私たちは6層のみを使用し、2000トークンのミニバッチを作成します。

XNLIで微調整する際に、私たちはサイズ8または16のミニバッチを使用し、文章の長さを256語に制限します。私たちは80kのBPE分割と95kの語彙を使用し、XNLI言語のWikipedia上で12層のモデルをトレーニングします。私たちは、Adamオプティマイザーの学習率を5.10−4から2.10−4の値でサンプリングし、20000のランダムサンプルの小さな評価エポックを使用します。私たちは、トランスフォーマーの最後の層の最初の隠れ状態を、ランダムに初期化された最終線形分類器の入力として使用し、すべてのパラメータを微調整します。私たちの実験では、最後の層の最大プーリングまたは平均プーリングを使用するよりも、最初の隠れ状態を使用する方がうまくいきませんでした。

私たちはすべてのモデルをPyTorch (Paszke et al., 2017) で実装し、言語モデリングタスクには64個のVolta GPUで、MTタスクには8個のGPUでトレーニングします。私たちはfloat16演算を使用してトレーニングを高速化し、モデルのメモリ使用量を削減します。

評価

テストデータ、要因、およびメトリクス

モデルを英語のNLIデータセットで微調整した後、モデル開発者はXNLIデータとテスト精度のメトリクスを使用して、15のXNLI言語で正しい予測を行うモデルの能力を評価しました。詳細については、関連論文を参照してください。

結果

言語	en	fr	es	de	el	bg	ru	tr	ar	vi	th	zh	hi	sw	ur
精度	85.0	78.7	78.9	77.8	76.6	77.4	75.3	72.5	73.1	76.1	73.2	76.5	69.6	68.4	67.3

環境への影響

炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。

ハードウェアタイプ：64個のVolta GPU
使用時間：詳細情報が必要
クラウドプロバイダー：詳細情報が必要
コンピュートリージョン：詳細情報が必要
排出された炭素量：詳細情報が必要

技術仕様

詳細は関連論文から収集されています。リンク、引用、および詳細については論文を参照してください。また、詳細については関連する GitHub Repo も参照してください。

モデルアーキテクチャと目的

xlm-mlm-tlm-xnli15-1024は、マスク言語モデリング（MLM）と翻訳言語モデリング（TLM）の目的で事前学習され、英語のNLIデータセットで微調整されたトランスフォーマーです。TLMの目的について、開発者は以下のように書いています。

私たちは、クロスリンガルな事前学習を改善するための新しい翻訳言語モデリング（TLM）の目的を導入します。私たちのTLMの目的はMLMの拡張であり、単言語のテキストストリームを考慮する代わりに、図1に示すように並列文章を連結します。私たちは、ソース文章とターゲット文章の両方で単語をランダムにマスクします。英語の文章でマスクされた単語を予測するために、モデルは周囲の英語の単語またはフランス語の翻訳にアテンションを向けることができ、モデルに英語とフランス語の表現をアラインさせることを促します。

コンピュートインフラストラクチャ

ハードウェアとソフトウェア

開発者は以下のように書いています。

私たちはすべてのモデルをPyTorch (Paszke et al., 2017) で実装し、言語モデリングタスクには64個のVolta GPUで、MTタスクには8個のGPUでトレーニングします。私たちはfloat16演算を使用してトレーニングを高速化し、モデルのメモリ使用量を削減します。

引用

BibTeX:

@article{lample2019cross,
  title={Cross-lingual language model pretraining},
  author={Lample, Guillaume and Conneau, Alexis},
  journal={arXiv preprint arXiv:1901.07291},
  year={2019}
}

APA: