開源DistilBERT多語言模型 - 快速高效支持104種語言的自然語言處理

首頁

Distilbert Base Multilingual Cased

由distilbert開發

DistilBERT 是 BERT 基礎多語言模型的蒸餾版本，保留了 BERT 的 97% 性能但參數更少、速度更快。支持 104 種語言，適用於多種自然語言處理任務。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #多語言支持 #輕量級BERT #文本分類

下載量 2.8M

發布時間 : 3/2/2022

模型概述

該模型是 BERT 基礎多語言模型的輕量級版本，通過知識蒸餾技術訓練，在保持高性能的同時減少了模型大小和計算需求。主要用於文本分類、命名實體識別、問答等下游任務的微調。

模型特點

多語言支持

支持 104 種語言的文本處理，包括主要歐洲和亞洲語言

高效推理

相比原版 BERT 模型，推理速度提升約 2 倍

知識蒸餾

通過蒸餾技術保留了原模型 97% 的性能，同時顯著減小模型體積

區分大小寫

能夠區分大小寫，如 'english' 和 'English' 被視為不同

模型能力

文本理解

語言建模

多語言文本處理

下游任務微調

使用案例

自然語言處理

跨語言文本分類

在多語言環境下對文本進行分類

在 XNLI 數據集上表現良好

命名實體識別

識別文本中的人名、地名、機構名等實體

問答系統

構建多語言問答系統

🚀 多語言DistilBERT基礎模型（大小寫敏感）

本模型是一個多語言的DistilBERT基礎模型，它是BERT基礎多語言模型的蒸餾版本，在多種語言任務上有著良好的表現，且速度更快，參數更少。

🚀 快速開始

你可以直接使用該模型進行掩碼語言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")

[{'score': 0.040800247341394424,
  'sequence': "Hello I'm a virtual model.",
  'token': 37859,
  'token_str': 'virtual'},
 {'score': 0.020015988498926163,
  'sequence': "Hello I'm a big model.",
  'token': 22185,
  'token_str': 'big'},
 {'score': 0.018680453300476074,
  'sequence': "Hello I'm a Hello model.",
  'token': 31178,
  'token_str': 'Hello'},
 {'score': 0.017396586015820503,
  'sequence': "Hello I'm a model model.",
  'token': 13192,
  'token_str': 'model'},
 {'score': 0.014229810796678066,
  'sequence': "Hello I'm a perfect model.",
  'token': 43477,
  'token_str': 'perfect'}]

✨ 主要特性

蒸餾版本：該模型是BERT基礎多語言模型的蒸餾版本，蒸餾過程的代碼可在此處找到。
大小寫敏感：該模型區分大小寫，例如能區分“english”和“English”。
多語言支持：模型在104種不同語言的維基百科數據拼接上進行訓練，具體語言列表可查看這裡。
參數更少速度更快：模型有6層、768維、12個注意力頭，總共1.34億個參數（相比之下，mBERT-base有1.77億個參數）。平均而言，這個名為DistilmBERT的模型速度是mBERT-base的兩倍。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Victor Sanh、Lysandre Debut、Julien Chaumond、Thomas Wolf（Hugging Face）
模型類型	基於Transformer的語言模型
支持語言（NLP）	104種語言；完整列表見此處
許可證	Apache 2.0
相關模型	BERT基礎多語言模型
更多信息資源	GitHub倉庫、相關論文

用途

直接使用和下游使用

你可以將原始模型用於掩碼語言建模或下一句預測，但它主要用於在下游任務上進行微調。你可以查看模型中心，尋找針對你感興趣任務的微調版本。

需要注意的是，該模型主要旨在針對使用整個句子（可能是掩碼後的句子）進行決策的任務進行微調，例如序列分類、標記分類或問答任務。對於文本生成等任務，你應該考慮GPT2等模型。

超出適用範圍的使用

該模型不應被用於故意為人們創造敵對或排斥性的環境。該模型並非用於對人物或事件進行事實性或真實性的表述，因此使用該模型生成此類內容超出了其能力範圍。

偏差、風險和侷限性

大量研究已經探討了語言模型的偏差和公平性問題（例如，參見Sheng等人（2021）和Bender等人（2021））。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。

建議

用戶（包括直接用戶和下游用戶）應該瞭解該模型的風險、偏差和侷限性。

訓練詳情

該模型在bert-base-multilingual-cased的監督下，在104種不同語言的維基百科數據拼接上進行預訓練。
模型有6層、768維、12個注意力頭，總共1.34億個參數。
關於訓練過程和數據的更多信息包含在bert-base-multilingual-cased的模型卡片中。

評估

模型開發者報告了DistilmBERT的以下準確率結果（見GitHub倉庫）：

以下是XNLI中6種可用語言的測試集結果。結果是在零樣本設置下計算的（在英語部分進行訓練，並在目標語言部分進行評估）：

模型	英語	西班牙語	中文	德語	阿拉伯語	烏爾都語
mBERT基礎大小寫敏感（計算值）	82.1	74.6	69.1	72.3	66.4	58.5
mBERT基礎不區分大小寫（報告值）	81.4	74.3	63.8	70.5	62.1	58.3
DistilmBERT	78.2	69.1	64.0	66.3	59.1	54.7

環境影響

可以使用Lacoste等人（2019）中提出的機器學習影響計算器來估算碳排放。

硬件類型：需要更多信息
使用時長：需要更多信息
雲服務提供商：需要更多信息
計算區域：需要更多信息
碳排放：需要更多信息

引用

@article{Sanh2019DistilBERTAD,
  title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
  author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
  journal={ArXiv},
  year={2019},
  volume={abs/1910.01108}
}

APA格式：

Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.