🚀 xlm-mlm-enfr-1024
XLM-mlm-enfr-1024 是一个针对英语 - 法语进行预训练的语言模型,采用掩码语言建模(MLM)目标,可用于掩码语言建模等任务。
🚀 快速开始
本模型使用语言嵌入来指定推理时使用的语言。更多详细信息请参阅 Hugging Face 多语言推理模型文档。
✨ 主要特性
- 基于 XLM 模型架构,适用于英语 - 法语。
- 采用掩码语言建模(MLM)目标进行预训练。
- 可用于掩码语言建模及相关下游任务。
📚 详细文档
🔍 模型详情
XLM 模型由 Guillaume Lample 和 Alexis Conneau 在论文 Cross-lingual Language Model Pretraining 中提出。xlm-mlm-enfr-1024 是一个针对英语 - 法语使用掩码语言建模(MLM)目标进行预训练的 Transformer 模型。该模型使用语言嵌入来指定推理时使用的语言。更多详细信息请参阅 Hugging Face 多语言推理模型文档。
模型描述
💡 使用场景
直接使用
该模型是一个语言模型,可用于掩码语言建模。
下游使用
要了解更多关于此任务和潜在的下游用途,请参阅 Hugging Face 填充掩码文档 和 Hugging Face 多语言推理模型文档。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。
⚠️ 偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng 等人 (2021) 和 Bender 等人 (2021))。
建议
用户(包括直接用户和下游用户)应该了解该模型的风险、偏差和局限性。
🏋️ 训练
模型开发者表示:
在所有实验中,我们使用具有 1024 个隐藏单元、8 个头、GELU 激活函数(Hendrycks 和 Gimpel,2016)、0.1 的丢弃率和学习到的位置嵌入的 Transformer 架构。我们使用 Adam 优化器(Kingma 和 Ba,2014)、线性热身(Vaswani 等人,2017)和从 10^−4 到 5.10^−4 的学习率来训练我们的模型。
有关训练数据和训练过程的链接、引用和更多详细信息,请参阅 相关论文。
模型开发者还表示:
如果您使用这些模型,您应该使用相同的数据预处理 / BPE 代码来预处理您的数据。
更多详细信息请参阅相关 GitHub 仓库。
🧪 评估
测试数据、因素和指标
模型开发者使用 BLEU 指标 在 WMT'14 英语 - 法语 数据集上对模型进行了评估。有关测试数据、因素和指标的更多详细信息,请参阅 相关论文。
结果
有关 xlm - mlm - enfr - 1024 的结果,请参阅 相关论文 的表 1 和表 2。
🌱 环境影响
可以使用 Lacoste 等人 (2019) 中提出的 机器学习影响计算器 来估算碳排放。
- 硬件类型:需要更多信息
- 使用时长:需要更多信息
- 云服务提供商:需要更多信息
- 计算区域:需要更多信息
- 碳排放:需要更多信息
🔧 技术细节
模型开发者表示:
我们在 PyTorch(Paszke 等人,2017)中实现了所有模型,并在 64 个 Volta GPU 上进行语言建模任务的训练,在 8 个 GPU 上进行机器翻译任务的训练。我们使用 float16 操作来加速训练并减少模型的内存使用。
更多详细信息请参阅 相关论文。
📑 引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
📝 模型卡片作者
此模型卡片由 Hugging Face 团队编写。