🚀 xlm-mlm-ende-1024
XLM模型是一个用于跨语言预训练的模型,xlm-mlm-ende-1024是针对英语 - 德语使用掩码语言建模(MLM)目标进行预训练的模型,可用于掩码语言建模任务。
🚀 快速开始
此模型使用语言嵌入来指定推理时使用的语言。更多详细信息请参阅 Hugging Face多语言推理模型文档。
✨ 主要特性
- 跨语言能力:支持英语和德语两种语言,可用于跨语言的任务。
- 预训练模型:基于掩码语言建模(MLM)目标进行预训练,可用于下游的语言相关任务。
📚 详细文档
模型详情
XLM模型由Guillaume Lample和Alexis Conneau在论文 Cross-lingual Language Model Pretraining 中提出。xlm-mlm-ende-1024是一个针对英语 - 德语使用掩码语言建模(MLM)目标进行预训练的Transformer模型。
属性 |
详情 |
开发者 |
Guillaume Lample, Alexis Conneau,详见 相关论文 |
模型类型 |
语言模型 |
语言(NLP) |
英语 - 德语 |
许可证 |
CC - BY - NC - 4.0 |
相关模型 |
[xlm - clm - enfr - 1024](https://huggingface.co/xlm - clm - enfr - 1024),[xlm - clm - ende - 1024](https://huggingface.co/xlm - clm - ende - 1024),[xlm - mlm - enfr - 1024](https://huggingface.co/xlm - mlm - enfr - 1024),[xlm - mlm - enro - 1024](https://huggingface.co/xlm - mlm - enro - 1024) |
更多信息资源 |
相关论文,GitHub仓库,Hugging Face多语言推理模型文档 |
用途
直接使用
该模型是一个语言模型,可用于掩码语言建模任务。
下游使用
要了解更多关于此任务和潜在的下游用途,请参阅Hugging Face的 [填充掩码文档](https://huggingface.co/tasks/fill - mask) 和 Hugging Face多语言推理模型文档。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 [Sheng等人 (2021)](https://aclanthology.org/2021.acl - long.330.pdf) 和 Bender等人 (2021))。
建议
用户(包括直接用户和下游用户)应该了解该模型的风险、偏差和局限性。
训练
模型开发者表示:
在所有实验中,我们使用具有1024个隐藏单元、8个注意力头、GELU激活函数(Hendrycks和Gimpel,2016)、0.1的丢弃率和学习的位置嵌入的Transformer架构。我们使用Adam优化器(Kingma和Ba,2014)、线性热身(Vaswani等人,2017)和从10^−4到5.10^−4变化的学习率来训练我们的模型。
有关训练数据和训练过程的链接、引用和更多详细信息,请参阅 相关论文。
模型开发者还表示:
如果您使用这些模型,您应该使用相同的数据预处理 / BPE代码来预处理您的数据。
更多详细信息请参阅相关的 [GitHub仓库](https://github.com/facebookresearch/XLM#ii - cross - lingual - language - model - pretraining - xlm)。
评估
测试数据、因素和指标
模型开发者使用 [BLEU指标](https://huggingface.co/spaces/evaluate - metric/bleu) 在 WMT'16英语 - 德语 数据集上对模型进行了评估。有关测试数据、因素和指标的更多详细信息,请参阅 相关论文。
结果
有关xlm - mlm - ende - 1024的结果,请参阅 相关论文 中的表1和表2。
环境影响
可以使用 Lacoste等人 (2019) 中提出的 机器学习影响计算器 来估算碳排放。
属性 |
详情 |
硬件类型 |
需要更多信息 |
使用时长 |
需要更多信息 |
云服务提供商 |
需要更多信息 |
计算区域 |
需要更多信息 |
碳排放 |
需要更多信息 |
技术规格
模型开发者表示:
我们在PyTorch(Paszke等人,2017)中实现了所有模型,并在64个Volta GPU上进行语言建模任务的训练,在8个GPU上进行机器翻译任务的训练。我们使用float16操作来加速训练并减少模型的内存使用。
更多详细信息请参阅 相关论文。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross - lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
此模型卡片由Hugging Face团队编写。
📄 许可证
本模型使用的许可证为CC - BY - NC - 4.0。