🚀 多语言DistilBERT基础模型(大小写敏感)
本模型是一个多语言的DistilBERT基础模型,它是BERT基础多语言模型的蒸馏版本,在多种语言任务上有着良好的表现,且速度更快,参数更少。
🚀 快速开始
你可以直接使用该模型进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")
[{'score': 0.040800247341394424,
'sequence': "Hello I'm a virtual model.",
'token': 37859,
'token_str': 'virtual'},
{'score': 0.020015988498926163,
'sequence': "Hello I'm a big model.",
'token': 22185,
'token_str': 'big'},
{'score': 0.018680453300476074,
'sequence': "Hello I'm a Hello model.",
'token': 31178,
'token_str': 'Hello'},
{'score': 0.017396586015820503,
'sequence': "Hello I'm a model model.",
'token': 13192,
'token_str': 'model'},
{'score': 0.014229810796678066,
'sequence': "Hello I'm a perfect model.",
'token': 43477,
'token_str': 'perfect'}]
✨ 主要特性
- 蒸馏版本:该模型是BERT基础多语言模型的蒸馏版本,蒸馏过程的代码可在此处找到。
- 大小写敏感:该模型区分大小写,例如能区分“english”和“English”。
- 多语言支持:模型在104种不同语言的维基百科数据拼接上进行训练,具体语言列表可查看这里。
- 参数更少速度更快:模型有6层、768维、12个注意力头,总共1.34亿个参数(相比之下,mBERT-base有1.77亿个参数)。平均而言,这个名为DistilmBERT的模型速度是mBERT-base的两倍。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Victor Sanh、Lysandre Debut、Julien Chaumond、Thomas Wolf(Hugging Face) |
模型类型 |
基于Transformer的语言模型 |
支持语言(NLP) |
104种语言;完整列表见此处 |
许可证 |
Apache 2.0 |
相关模型 |
BERT基础多语言模型 |
更多信息资源 |
GitHub仓库、相关论文 |
用途
直接使用和下游使用
你可以将原始模型用于掩码语言建模或下一句预测,但它主要用于在下游任务上进行微调。你可以查看模型中心,寻找针对你感兴趣任务的微调版本。
需要注意的是,该模型主要旨在针对使用整个句子(可能是掩码后的句子)进行决策的任务进行微调,例如序列分类、标记分类或问答任务。对于文本生成等任务,你应该考虑GPT2等模型。
超出适用范围的使用
该模型不应被用于故意为人们创造敌对或排斥性的环境。该模型并非用于对人物或事件进行事实性或真实性的表述,因此使用该模型生成此类内容超出了其能力范围。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见Sheng等人(2021)和Bender等人(2021))。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(包括直接用户和下游用户)应该了解该模型的风险、偏差和局限性。
训练详情
评估
模型开发者报告了DistilmBERT的以下准确率结果(见GitHub仓库):
以下是XNLI中6种可用语言的测试集结果。结果是在零样本设置下计算的(在英语部分进行训练,并在目标语言部分进行评估):
模型 |
英语 |
西班牙语 |
中文 |
德语 |
阿拉伯语 |
乌尔都语 |
mBERT基础大小写敏感(计算值) |
82.1 |
74.6 |
69.1 |
72.3 |
66.4 |
58.5 |
mBERT基础不区分大小写(报告值) |
81.4 |
74.3 |
63.8 |
70.5 |
62.1 |
58.3 |
DistilmBERT |
78.2 |
69.1 |
64.0 |
66.3 |
59.1 |
54.7 |
环境影响
可以使用Lacoste等人(2019)中提出的机器学习影响计算器来估算碳排放。
- 硬件类型:需要更多信息
- 使用时长:需要更多信息
- 云服务提供商:需要更多信息
- 计算区域:需要更多信息
- 碳排放:需要更多信息
引用
@article{Sanh2019DistilBERTAD,
title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
journal={ArXiv},
year={2019},
volume={abs/1910.01108}
}
APA格式:
- Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.