开源DistilBERT多语言模型 - 快速高效支持104种语言的自然语言处理

首页

Distilbert Base Multilingual Cased

由 distilbert 开发

DistilBERT 是 BERT 基础多语言模型的蒸馏版本，保留了 BERT 的 97% 性能但参数更少、速度更快。支持 104 种语言，适用于多种自然语言处理任务。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多语言支持 #轻量级BERT #文本分类

下载量 2.8M

发布时间 : 3/2/2022

模型简介

该模型是 BERT 基础多语言模型的轻量级版本，通过知识蒸馏技术训练，在保持高性能的同时减少了模型大小和计算需求。主要用于文本分类、命名实体识别、问答等下游任务的微调。

模型特点

多语言支持

支持 104 种语言的文本处理，包括主要欧洲和亚洲语言

高效推理

相比原版 BERT 模型，推理速度提升约 2 倍

知识蒸馏

通过蒸馏技术保留了原模型 97% 的性能，同时显著减小模型体积

区分大小写

能够区分大小写，如 'english' 和 'English' 被视为不同

模型能力

文本理解

语言建模

多语言文本处理

下游任务微调

使用案例

自然语言处理

跨语言文本分类

在多语言环境下对文本进行分类

在 XNLI 数据集上表现良好

命名实体识别

识别文本中的人名、地名、机构名等实体

问答系统

构建多语言问答系统

🚀 多语言DistilBERT基础模型（大小写敏感）

本模型是一个多语言的DistilBERT基础模型，它是BERT基础多语言模型的蒸馏版本，在多种语言任务上有着良好的表现，且速度更快，参数更少。

🚀 快速开始

你可以直接使用该模型进行掩码语言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")

[{'score': 0.040800247341394424,
  'sequence': "Hello I'm a virtual model.",
  'token': 37859,
  'token_str': 'virtual'},
 {'score': 0.020015988498926163,
  'sequence': "Hello I'm a big model.",
  'token': 22185,
  'token_str': 'big'},
 {'score': 0.018680453300476074,
  'sequence': "Hello I'm a Hello model.",
  'token': 31178,
  'token_str': 'Hello'},
 {'score': 0.017396586015820503,
  'sequence': "Hello I'm a model model.",
  'token': 13192,
  'token_str': 'model'},
 {'score': 0.014229810796678066,
  'sequence': "Hello I'm a perfect model.",
  'token': 43477,
  'token_str': 'perfect'}]

✨ 主要特性

蒸馏版本：该模型是BERT基础多语言模型的蒸馏版本，蒸馏过程的代码可在此处找到。
大小写敏感：该模型区分大小写，例如能区分“english”和“English”。
多语言支持：模型在104种不同语言的维基百科数据拼接上进行训练，具体语言列表可查看这里。
参数更少速度更快：模型有6层、768维、12个注意力头，总共1.34亿个参数（相比之下，mBERT-base有1.77亿个参数）。平均而言，这个名为DistilmBERT的模型速度是mBERT-base的两倍。

📚 详细文档

模型详情

属性	详情
开发者	Victor Sanh、Lysandre Debut、Julien Chaumond、Thomas Wolf（Hugging Face）
模型类型	基于Transformer的语言模型
支持语言（NLP）	104种语言；完整列表见此处
许可证	Apache 2.0
相关模型	BERT基础多语言模型
更多信息资源	GitHub仓库、相关论文

用途

直接使用和下游使用

你可以将原始模型用于掩码语言建模或下一句预测，但它主要用于在下游任务上进行微调。你可以查看模型中心，寻找针对你感兴趣任务的微调版本。

需要注意的是，该模型主要旨在针对使用整个句子（可能是掩码后的句子）进行决策的任务进行微调，例如序列分类、标记分类或问答任务。对于文本生成等任务，你应该考虑GPT2等模型。

超出适用范围的使用

该模型不应被用于故意为人们创造敌对或排斥性的环境。该模型并非用于对人物或事件进行事实性或真实性的表述，因此使用该模型生成此类内容超出了其能力范围。

偏差、风险和局限性

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见Sheng等人（2021）和Bender等人（2021））。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

建议

用户（包括直接用户和下游用户）应该了解该模型的风险、偏差和局限性。

训练详情

该模型在bert-base-multilingual-cased的监督下，在104种不同语言的维基百科数据拼接上进行预训练。
模型有6层、768维、12个注意力头，总共1.34亿个参数。
关于训练过程和数据的更多信息包含在bert-base-multilingual-cased的模型卡片中。

评估

模型开发者报告了DistilmBERT的以下准确率结果（见GitHub仓库）：

以下是XNLI中6种可用语言的测试集结果。结果是在零样本设置下计算的（在英语部分进行训练，并在目标语言部分进行评估）：

模型	英语	西班牙语	中文	德语	阿拉伯语	乌尔都语
mBERT基础大小写敏感（计算值）	82.1	74.6	69.1	72.3	66.4	58.5
mBERT基础不区分大小写（报告值）	81.4	74.3	63.8	70.5	62.1	58.3
DistilmBERT	78.2	69.1	64.0	66.3	59.1	54.7

环境影响

可以使用Lacoste等人（2019）中提出的机器学习影响计算器来估算碳排放。

硬件类型：需要更多信息
使用时长：需要更多信息
云服务提供商：需要更多信息
计算区域：需要更多信息
碳排放：需要更多信息

引用

@article{Sanh2019DistilBERTAD,
  title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
  author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
  journal={ArXiv},
  year={2019},
  volume={abs/1910.01108}
}

APA格式：

Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.