🚀 xlm-mlm-100-1280
xlm-mlm-100-1280是一个基于多语言的预训练语言模型,在100种语言的维基百科文本上进行训练,可用于掩码语言建模等任务。
🚀 快速开始
若要了解如何使用该模型,请参考关联 GitHub仓库 中的 ipython笔记本 获取示例。
✨ 主要特性
- 多语言支持:支持100种语言,具体语言列表可查看 GitHub仓库。
- 预训练模型:基于Transformer架构,使用掩码语言建模(MLM)目标进行预训练。
📚 详细文档
🔍 模型详情
xlm-mlm-100-1280是XLM模型,由Guillaume Lample和Alexis Conneau在论文 Cross-lingual Language Model Pretraining 中提出,并在100种语言的维基百科文本上进行训练。该模型是一个使用掩码语言建模(MLM)目标进行预训练的Transformer模型。
💡 使用方式
直接使用
该模型是一个语言模型,可用于掩码语言建模。
下游使用
若要了解更多关于此任务和潜在的下游应用,请参考Hugging Face的 填充掩码文档 和 Hugging Face多语言推理模型文档,也可参考 关联论文。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。
⚠️ 偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng等人 (2021) 和 Bender等人 (2021))。
⚠️ 重要提示
直接用户和下游用户都应该了解该模型的风险、偏差和局限性。
🏋️ 训练情况
此模型是在100种语言的维基百科文本上训练的XLM模型。预处理包括使用字节对编码(byte - pair - encoding)进行分词。有关训练数据和训练过程的更多详细信息,请参考 GitHub仓库 和 关联论文。
Conneau等人 (2020) 报告称,该模型有16层,1280个隐藏状态,16个注意力头,前馈层的维度为1520。词汇量大小为200k,总参数数量为5.7亿(详见表7)。
📊 评估情况
测试数据、因素和指标
模型开发者使用测试准确率指标,在XNLI跨语言分类任务上对模型进行了评估(有关XNLI的更多详细信息,请参阅 XNLI数据卡片)。有关测试数据、因素和指标的更多详细信息,请参考 GitHub仓库。
结果
对于xlm - mlm - 100 - 1280,在XNLI跨语言分类任务中,英语(en)、西班牙语(es)、德语(de)、阿拉伯语(ar)、中文(zh)和乌尔都语(ur)的测试准确率如下:
语言 |
英语(en) |
西班牙语(es) |
德语(de) |
阿拉伯语(ar) |
中文(zh) |
乌尔都语(ur) |
准确率 |
83.7 |
76.6 |
73.6 |
67.4 |
71.7 |
62.9 |
更多详细信息请参考 GitHub仓库。
🌱 环境影响
可以使用 Lacoste等人 (2019) 提出的 机器学习影响计算器 来估算碳排放。
属性 |
详情 |
硬件类型 |
需要更多信息 |
使用时长 |
需要更多信息 |
云服务提供商 |
需要更多信息 |
计算区域 |
需要更多信息 |
碳排放 |
需要更多信息 |
🔧 技术细节
Conneau等人 (2020) 报告称,该模型有16层,1280个隐藏状态,16个注意力头,前馈层的维度为1520。词汇量大小为200k,总参数数量为5.7亿(详见表7)。
📖 引用信息
BibTeX格式:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA格式:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
✍️ 模型卡片作者
此模型卡片由Hugging Face团队编写。
📄 许可证
本模型采用CC - BY - NC - 4.0许可证。