🚀 xlm-mlm-tlm-xnli15-1024
xlm-mlm-tlm-xnli15-1024 是一个经过预训练的 Transformer 模型,结合了掩码语言建模(MLM)和翻译语言建模(TLM)目标进行训练,并在英文自然语言推理(NLI)数据集上进行了微调。该模型可用于跨语言文本分类等自然语言处理任务。
🚀 快速开始
本模型在推理时使用语言嵌入来指定使用的语言。更多详细信息,请参阅 Hugging Face 多语言推理模型文档。
✨ 主要特性
- 跨语言能力:该模型在 15 种 XNLI 语言上进行了评估,具备跨语言文本分类和自然语言推理的能力。
- 多目标训练:结合了掩码语言建模(MLM)和翻译语言建模(TLM)目标进行预训练,然后在英文 NLI 数据集上进行微调。
📚 详细文档
模型详情
XLM 模型由 Guillaume Lample 和 Alexis Conneau 在论文 Cross-lingual Language Model Pretraining 中提出。xlm-mlm-tlm-xnli15-1024 是一个 Transformer 模型,使用掩码语言建模(MLM)目标结合翻译语言建模(TLM)目标进行预训练,然后在英文 NLI 数据集上进行微调。模型开发者评估了该模型在 15 种 XNLI 语言中进行正确预测的能力(有关 XNLI 的更多信息,请参阅 XNLI 数据卡)。
模型描述
用途
直接使用
该模型是一个语言模型,可用于跨语言文本分类。尽管该模型是基于英文文本数据进行微调的,但已经评估了其对其他 14 种语言句子的分类能力(详见 评估)。
下游使用
该模型可用于与不同语言的自然语言推理相关的下游任务。更多信息,请参阅 相关论文。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng et al. (2021) 和 Bender et al. (2021))。
建议
用户(包括直接用户和下游用户)应该了解该模型的风险、偏差和局限性。
训练详情
训练详情摘自 相关论文。有关链接、引用和更多详细信息,请参阅该论文。更多详细信息还可参见相关的 GitHub 仓库。
训练数据
模型开发者表示:
我们使用 WikiExtractor2 从维基百科转储中提取原始句子,并将其用作 CLM 和 MLM 目标的单语数据。对于 TLM 目标,我们仅使用涉及英语的平行数据,这与 Conneau 等人(2018b)的做法类似。
- 具体来说,我们使用 MultiUN(Ziemski 等人,2016)用于法语、西班牙语、俄语、阿拉伯语和中文,使用 IIT Bombay 语料库(Anoop 等人,2018)用于印地语。
- 我们从 OPUS 3 网站 Tiedemann(2012)中提取了以下语料库:用于德语、希腊语和保加利亚语的 EUbookshop 语料库,用于土耳其语、越南语和泰语的 OpenSubtitles 2018 语料库,用于乌尔都语和斯瓦希里语的 Tanzil 语料库,以及用于斯瓦希里语的 GlobalVoices 语料库。
- 对于中文、日语和泰语,我们分别使用 Chang 等人(2008)的分词器、Kytea4 分词器和 PyThaiNLP5 分词器。
- 对于所有其他语言,我们使用 Moses(Koehn 等人,2007)提供的分词器,必要时使用默认的英语分词器。
在微调时,开发者使用了英文 NLI 数据集(详见 XNLI 数据卡)。
训练过程
预处理
模型开发者表示:
我们使用 fastBPE 学习 BPE 代码,并将单词拆分为子词单元。按照第 3.1 节中介绍的方法,在从所有语言中采样的句子拼接上学习 BPE 代码。
速度、大小、时间
模型开发者表示:
我们使用具有 1024 个隐藏单元、8 个头、GELU 激活函数(Hendrycks 和 Gimpel,2016)、0.1 的丢弃率和学习的位置嵌入的 Transformer 架构。我们使用 Adam 优化器(Kingma 和 Ba,2014)、线性预热(Vaswani 等人,2017)和从 10^−4 到 5.10^−4 变化的学习率来训练我们的模型。
对于 CLM 和 MLM 目标,我们使用 256 个标记的流和大小为 64 的小批量。与 Devlin 等人(2018)不同,小批量中的一个序列可以包含两个以上连续的句子,如第 3.2 节所述。对于 TLM 目标,我们采样由长度相似的句子组成的 4000 个标记的小批量。我们使用跨语言的平均困惑度作为训练的停止标准。对于机器翻译,我们仅使用 6 层,并创建 2000 个标记的小批量。
在 XNLI 上进行微调时,我们使用大小为 8 或 16 的小批量,并将句子长度截断为 256 个单词。我们使用 80k BPE 分割和 95k 的词汇表,并在 XNLI 语言的维基百科上训练一个 12 层的模型。我们从 5.10−4 到 2.10−4 的值中采样 Adam 优化器的学习率,并使用 20000 个随机样本的小评估周期。我们使用 Transformer 最后一层的第一个隐藏状态作为随机初始化的最终线性分类器的输入,并微调所有参数。在我们的实验中,使用最后一层的最大池化或平均池化并不比使用第一个隐藏状态更好。
我们在 PyTorch(Paszke 等人,2017)中实现了所有模型,并在 64 个 Volta GPU 上进行语言建模任务的训练,在 8 个 GPU 上进行机器翻译任务的训练。我们使用 float16 操作来加速训练并减少模型的内存使用。
评估
测试数据、因素和指标
在英文 NLI 数据集上对模型进行微调后,模型开发者使用 XNLI 数据和测试准确率指标评估了该模型在 15 种 XNLI 语言中进行正确预测的能力。更多详细信息,请参阅 相关论文。
结果
语言 |
英文 |
法语 |
西班牙语 |
德语 |
希腊语 |
保加利亚语 |
俄语 |
土耳其语 |
阿拉伯语 |
越南语 |
泰语 |
中文 |
印地语 |
斯瓦希里语 |
乌尔都语 |
准确率 |
85.0 |
78.7 |
78.9 |
77.8 |
76.6 |
77.4 |
75.3 |
72.5 |
73.1 |
76.1 |
73.2 |
76.5 |
69.6 |
68.4 |
67.3 |
环境影响
可以使用 Lacoste 等人(2019) 提出的 机器学习影响计算器 来估算碳排放。
- 硬件类型:64 个 Volta GPU
- 使用时长:需要更多信息
- 云服务提供商:需要更多信息
- 计算区域:需要更多信息
- 碳排放:需要更多信息
技术规格
详情摘自 相关论文。有关链接、引用和更多详细信息,请参阅该论文。更多详细信息还可参见相关的 GitHub 仓库。
模型架构和目标
xlm-mlm-tlm-xnli15-1024 是一个 Transformer 模型,使用掩码语言建模(MLM)目标结合翻译语言建模(TLM)目标进行预训练,然后在英文 NLI 数据集上进行微调。关于 TLM 目标,开发者表示:
我们引入了一种新的翻译语言建模(TLM)目标,用于改进跨语言预训练。我们的 TLM 目标是 MLM 的扩展,在 TLM 中,我们不是考虑单语文本流,而是将平行句子拼接起来,如图 1 所示。我们在源句子和目标句子中随机掩码单词。为了预测英文句子中被掩码的单词,模型可以关注周围的英文单词或法语翻译,从而鼓励模型对齐英文和法语的表示。
计算基础设施
硬件和软件
开发者表示:
我们在 PyTorch(Paszke 等人,2017)中实现了所有模型,并在 64 个 Volta GPU 上进行语言建模任务的训练,在 8 个 GPU 上进行机器翻译任务的训练。我们使用 float16 操作来加速训练并减少模型的内存使用。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
本模型卡片由 Hugging Face 团队撰写。