🚀 xlm-mlm-ende-1024
このモデルは、英語とドイツ語のマスク言語モデリング(MLM)を目的として事前学習されたTransformerモデルです。言語埋め込みを使用して推論時の言語を指定できます。
🚀 クイックスタート
このモデルを使用するには、言語埋め込みを利用して推論時の言語を指定します。詳細については、Hugging Face Multilingual Models for Inference docsを参照してください。
✨ 主な機能
直接的な利用
このモデルは言語モデルであり、マスク言語モデリングに使用できます。
下流タスクでの利用
このタスクと潜在的な下流タスクについて詳しく知るには、Hugging Faceのfill mask docsとHugging Face Multilingual Models for Inferenceのドキュメントを参照してください。
想定外の利用
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはなりません。
📦 インストール
READMEにインストール手順に関する具体的な内容が記載されていないため、このセクションをスキップします。
💻 使用例
READMEにコード例が記載されていないため、このセクションをスキップします。
📚 ドキュメント
モデル詳細
XLMモデルは、Guillaume LampleとAlexis ConneauによるCross-lingual Language Model Pretrainingで提案されました。xlm-mlm-ende-1024は、英語とドイツ語のマスク言語モデリング(MLM)を目的として事前学習されたTransformerモデルです。このモデルは、言語埋め込みを使用して推論時の言語を指定します。詳細については、Hugging Face Multilingual Models for Inference docsを参照してください。
モデルの説明
バイアス、リスク、制限事項
多くの研究が言語モデルのバイアスと公平性の問題を探求しています(例えば、Sheng et al. (2021) と Bender et al. (2021) を参照)。
推奨事項
ユーザー(直接的なユーザーと下流タスクのユーザーの両方)は、このモデルのリスク、バイアス、制限事項を認識する必要があります。
学習
モデル開発者は以下のように述べています。
すべての実験で、1024の隠れユニット、8つのヘッド、GELU活性化関数(Hendrycks and Gimpel, 2016)、ドロップアウト率0.1、学習済みの位置埋め込みを持つTransformerアーキテクチャを使用します。Adamオプティマイザー(Kingma and Ba, 2014)、線形ウォームアップ(Vaswani et al., 2017)、10^−4から5.10^−4まで変化する学習率でモデルを学習させます。
学習データと学習手順の詳細については、関連論文を参照してください。
モデル開発者はまた、以下のように述べています。
これらのモデルを使用する場合は、同じデータ前処理 / BPEコードを使用してデータを前処理する必要があります。
詳細については、関連するGitHubリポジトリを参照してください。
評価
テストデータ、要因、メトリクス
モデル開発者は、WMT'16 English-Germanデータセットを使用し、BLEUメトリクスを用いてモデルを評価しました。テストデータ、要因、メトリクスの詳細については、関連論文を参照してください。
結果
xlm-mlm-ende-1024の結果については、関連論文の表1と表2を参照してください。
環境への影響
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。
属性 |
详情 |
ハードウェアタイプ |
詳細情報が必要 |
使用時間 |
詳細情報が必要 |
クラウドプロバイダー |
詳細情報が必要 |
コンピュートリージョン |
詳細情報が必要 |
排出された炭素量 |
詳細情報が必要 |
技術的仕様
モデル開発者は以下のように述べています。
すべてのモデルをPyTorch(Paszke et al., 2017)で実装し、言語モデリングタスクでは64台のVolta GPUで、MTタスクでは8台のGPUで学習させます。float16演算を使用して学習を高速化し、モデルのメモリ使用量を削減します。
詳細については、関連論文を参照してください。
🔧 技術詳細
READMEに十分な技術的詳細が記載されていないため、このセクションをスキップします。
📄 ライセンス
このモデルはCC-BY-NC-4.0ライセンスの下で提供されています。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
モデルカード作成者
このモデルカードはHugging Faceのチームによって作成されました。