🚀 xlm-mlm-ende-1024
XLM模型是一個用於跨語言預訓練的模型,xlm-mlm-ende-1024是針對英語 - 德語使用掩碼語言建模(MLM)目標進行預訓練的模型,可用於掩碼語言建模任務。
🚀 快速開始
此模型使用語言嵌入來指定推理時使用的語言。更多詳細信息請參閱 Hugging Face多語言推理模型文檔。
✨ 主要特性
- 跨語言能力:支持英語和德語兩種語言,可用於跨語言的任務。
- 預訓練模型:基於掩碼語言建模(MLM)目標進行預訓練,可用於下游的語言相關任務。
📚 詳細文檔
模型詳情
XLM模型由Guillaume Lample和Alexis Conneau在論文 Cross-lingual Language Model Pretraining 中提出。xlm-mlm-ende-1024是一個針對英語 - 德語使用掩碼語言建模(MLM)目標進行預訓練的Transformer模型。
屬性 |
詳情 |
開發者 |
Guillaume Lample, Alexis Conneau,詳見 相關論文 |
模型類型 |
語言模型 |
語言(NLP) |
英語 - 德語 |
許可證 |
CC - BY - NC - 4.0 |
相關模型 |
[xlm - clm - enfr - 1024](https://huggingface.co/xlm - clm - enfr - 1024),[xlm - clm - ende - 1024](https://huggingface.co/xlm - clm - ende - 1024),[xlm - mlm - enfr - 1024](https://huggingface.co/xlm - mlm - enfr - 1024),[xlm - mlm - enro - 1024](https://huggingface.co/xlm - mlm - enro - 1024) |
更多信息資源 |
相關論文,GitHub倉庫,Hugging Face多語言推理模型文檔 |
用途
直接使用
該模型是一個語言模型,可用於掩碼語言建模任務。
下游使用
要了解更多關於此任務和潛在的下游用途,請參閱Hugging Face的 [填充掩碼文檔](https://huggingface.co/tasks/fill - mask) 和 Hugging Face多語言推理模型文檔。
超出適用範圍的使用
該模型不應被用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 [Sheng等人 (2021)](https://aclanthology.org/2021.acl - long.330.pdf) 和 Bender等人 (2021))。
建議
用戶(包括直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。
訓練
模型開發者表示:
在所有實驗中,我們使用具有1024個隱藏單元、8個注意力頭、GELU激活函數(Hendrycks和Gimpel,2016)、0.1的丟棄率和學習的位置嵌入的Transformer架構。我們使用Adam優化器(Kingma和Ba,2014)、線性熱身(Vaswani等人,2017)和從10^−4到5.10^−4變化的學習率來訓練我們的模型。
有關訓練數據和訓練過程的鏈接、引用和更多詳細信息,請參閱 相關論文。
模型開發者還表示:
如果您使用這些模型,您應該使用相同的數據預處理 / BPE代碼來預處理您的數據。
更多詳細信息請參閱相關的 [GitHub倉庫](https://github.com/facebookresearch/XLM#ii - cross - lingual - language - model - pretraining - xlm)。
評估
測試數據、因素和指標
模型開發者使用 [BLEU指標](https://huggingface.co/spaces/evaluate - metric/bleu) 在 WMT'16英語 - 德語 數據集上對模型進行了評估。有關測試數據、因素和指標的更多詳細信息,請參閱 相關論文。
結果
有關xlm - mlm - ende - 1024的結果,請參閱 相關論文 中的表1和表2。
環境影響
可以使用 Lacoste等人 (2019) 中提出的 機器學習影響計算器 來估算碳排放。
屬性 |
詳情 |
硬件類型 |
需要更多信息 |
使用時長 |
需要更多信息 |
雲服務提供商 |
需要更多信息 |
計算區域 |
需要更多信息 |
碳排放 |
需要更多信息 |
技術規格
模型開發者表示:
我們在PyTorch(Paszke等人,2017)中實現了所有模型,並在64個Volta GPU上進行語言建模任務的訓練,在8個GPU上進行機器翻譯任務的訓練。我們使用float16操作來加速訓練並減少模型的內存使用。
更多詳細信息請參閱 相關論文。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross - lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
此模型卡片由Hugging Face團隊編寫。
📄 許可證
本模型使用的許可證為CC - BY - NC - 4.0。