🚀 xlm-mlm-enfr-1024
このモデルは、英語とフランス語に対してマスク言語モデリング(MLM)の目的で事前学習されたTransformerモデルです。言語埋め込みを使用して推論時の言語を指定します。
🚀 クイックスタート
このモデルは、言語埋め込みを使用して推論時の言語を指定します。詳細については、Hugging Face Multilingual Models for Inference docsを参照してください。
✨ 主な機能
- マスク言語モデリングタスクに使用できます。
- 英語とフランス語の多言語処理が可能です。
📚 ドキュメント
モデルの詳細
XLMモデルは、Guillaume LampleとAlexis ConneauによるCross-lingual Language Model Pretrainingで提案されました。xlm-mlm-enfr-1024は、英語とフランス語に対してマスク言語モデリング(MLM)の目的で事前学習されたTransformerモデルです。このモデルは、言語埋め込みを使用して推論時の言語を指定します。詳細については、Hugging Face Multilingual Models for Inference docsを参照してください。
用途
直接的な使用
このモデルは言語モデルであり、マスク言語モデリングに使用できます。
下流タスクでの使用
このタスクと潜在的な下流タスクの詳細については、Hugging Faceのfill mask docsとHugging Face Multilingual Models for Inferenceドキュメントを参照してください。
範囲外の使用
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはいけません。
バイアス、リスク、制限
多くの研究が言語モデルのバイアスと公平性の問題を探っています(例えば、Sheng et al. (2021) と Bender et al. (2021) を参照)。
推奨事項
ユーザー(直接的なユーザーと下流タスクのユーザーの両方)は、このモデルのリスク、バイアス、制限について認識すべきです。
学習
モデル開発者は以下のように書いています。
すべての実験では、1024の隠れユニット、8つのヘッド、GELU活性化関数(Hendrycks and Gimpel, 2016)、0.1のドロップアウト率、学習済みの位置埋め込みを持つTransformerアーキテクチャを使用します。Adamオプティマイザー(Kingma and Ba, 2014)、線形ウォームアップ(Vaswani et al., 2017)、10^−4から5.10^−4まで変化する学習率でモデルを学習させます。
学習データと学習手順の詳細については、関連論文を参照してください。
モデル開発者はまた、以下のように書いています。
これらのモデルを使用する場合は、同じデータ前処理 / BPEコードを使用してデータを前処理する必要があります。
詳細については、関連するGitHubリポジトリを参照してください。
評価
テストデータ、要因、メトリクス
モデル開発者は、WMT'14 English-Frenchデータセットを使用し、BLEUメトリクスを用いてモデルを評価しました。テストデータ、要因、メトリクスの詳細については、関連論文を参照してください。
結果
xlm-mlm-enfr-1024の結果については、関連論文の表1と表2を参照してください。
環境への影響
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。
属性 |
详情 |
ハードウェアタイプ |
詳細情報が必要 |
使用時間 |
詳細情報が必要 |
クラウドプロバイダー |
詳細情報が必要 |
コンピュートリージョン |
詳細情報が必要 |
排出された炭素量 |
詳細情報が必要 |
技術仕様
モデル開発者は以下のように書いています。
すべてのモデルをPyTorch(Paszke et al., 2017)で実装し、言語モデリングタスクには64台のVolta GPUで、MTタスクには8台のGPUで学習させます。float16演算を使用して学習を高速化し、モデルのメモリ使用量を削減します。
詳細については、関連論文を参照してください。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
モデルカード作成者
このモデルカードはHugging Faceのチームによって作成されました。
📄 ライセンス
このモデルはCC-BY-NC-4.0ライセンスの下で提供されています。