🚀 xlm-mlm-enfr-1024
XLM-mlm-enfr-1024 是一個針對英語 - 法語進行預訓練的語言模型,採用掩碼語言建模(MLM)目標,可用於掩碼語言建模等任務。
🚀 快速開始
本模型使用語言嵌入來指定推理時使用的語言。更多詳細信息請參閱 Hugging Face 多語言推理模型文檔。
✨ 主要特性
- 基於 XLM 模型架構,適用於英語 - 法語。
- 採用掩碼語言建模(MLM)目標進行預訓練。
- 可用於掩碼語言建模及相關下游任務。
📚 詳細文檔
🔍 模型詳情
XLM 模型由 Guillaume Lample 和 Alexis Conneau 在論文 Cross-lingual Language Model Pretraining 中提出。xlm-mlm-enfr-1024 是一個針對英語 - 法語使用掩碼語言建模(MLM)目標進行預訓練的 Transformer 模型。該模型使用語言嵌入來指定推理時使用的語言。更多詳細信息請參閱 Hugging Face 多語言推理模型文檔。
模型描述
💡 使用場景
直接使用
該模型是一個語言模型,可用於掩碼語言建模。
下游使用
要了解更多關於此任務和潛在的下游用途,請參閱 Hugging Face 填充掩碼文檔 和 Hugging Face 多語言推理模型文檔。
超出適用範圍的使用
該模型不應被用於故意為人們創造敵對或排斥性的環境。
⚠️ 偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng 等人 (2021) 和 Bender 等人 (2021))。
建議
用戶(包括直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。
🏋️ 訓練
模型開發者表示:
在所有實驗中,我們使用具有 1024 個隱藏單元、8 個頭、GELU 激活函數(Hendrycks 和 Gimpel,2016)、0.1 的丟棄率和學習到的位置嵌入的 Transformer 架構。我們使用 Adam 優化器(Kingma 和 Ba,2014)、線性熱身(Vaswani 等人,2017)和從 10^−4 到 5.10^−4 的學習率來訓練我們的模型。
有關訓練數據和訓練過程的鏈接、引用和更多詳細信息,請參閱 相關論文。
模型開發者還表示:
如果您使用這些模型,您應該使用相同的數據預處理 / BPE 代碼來預處理您的數據。
更多詳細信息請參閱相關 GitHub 倉庫。
🧪 評估
測試數據、因素和指標
模型開發者使用 BLEU 指標 在 WMT'14 英語 - 法語 數據集上對模型進行了評估。有關測試數據、因素和指標的更多詳細信息,請參閱 相關論文。
結果
有關 xlm - mlm - enfr - 1024 的結果,請參閱 相關論文 的表 1 和表 2。
🌱 環境影響
可以使用 Lacoste 等人 (2019) 中提出的 機器學習影響計算器 來估算碳排放。
- 硬件類型:需要更多信息
- 使用時長:需要更多信息
- 雲服務提供商:需要更多信息
- 計算區域:需要更多信息
- 碳排放:需要更多信息
🔧 技術細節
模型開發者表示:
我們在 PyTorch(Paszke 等人,2017)中實現了所有模型,並在 64 個 Volta GPU 上進行語言建模任務的訓練,在 8 個 GPU 上進行機器翻譯任務的訓練。我們使用 float16 操作來加速訓練並減少模型的內存使用。
更多詳細信息請參閱 相關論文。
📑 引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
📝 模型卡片作者
此模型卡片由 Hugging Face 團隊編寫。