🚀 多語言DistilBERT基礎模型(大小寫敏感)
本模型是一個多語言的DistilBERT基礎模型,它是BERT基礎多語言模型的蒸餾版本,在多種語言任務上有著良好的表現,且速度更快,參數更少。
🚀 快速開始
你可以直接使用該模型進行掩碼語言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")
[{'score': 0.040800247341394424,
'sequence': "Hello I'm a virtual model.",
'token': 37859,
'token_str': 'virtual'},
{'score': 0.020015988498926163,
'sequence': "Hello I'm a big model.",
'token': 22185,
'token_str': 'big'},
{'score': 0.018680453300476074,
'sequence': "Hello I'm a Hello model.",
'token': 31178,
'token_str': 'Hello'},
{'score': 0.017396586015820503,
'sequence': "Hello I'm a model model.",
'token': 13192,
'token_str': 'model'},
{'score': 0.014229810796678066,
'sequence': "Hello I'm a perfect model.",
'token': 43477,
'token_str': 'perfect'}]
✨ 主要特性
- 蒸餾版本:該模型是BERT基礎多語言模型的蒸餾版本,蒸餾過程的代碼可在此處找到。
- 大小寫敏感:該模型區分大小寫,例如能區分“english”和“English”。
- 多語言支持:模型在104種不同語言的維基百科數據拼接上進行訓練,具體語言列表可查看這裡。
- 參數更少速度更快:模型有6層、768維、12個注意力頭,總共1.34億個參數(相比之下,mBERT-base有1.77億個參數)。平均而言,這個名為DistilmBERT的模型速度是mBERT-base的兩倍。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Victor Sanh、Lysandre Debut、Julien Chaumond、Thomas Wolf(Hugging Face) |
模型類型 |
基於Transformer的語言模型 |
支持語言(NLP) |
104種語言;完整列表見此處 |
許可證 |
Apache 2.0 |
相關模型 |
BERT基礎多語言模型 |
更多信息資源 |
GitHub倉庫、相關論文 |
用途
直接使用和下游使用
你可以將原始模型用於掩碼語言建模或下一句預測,但它主要用於在下游任務上進行微調。你可以查看模型中心,尋找針對你感興趣任務的微調版本。
需要注意的是,該模型主要旨在針對使用整個句子(可能是掩碼後的句子)進行決策的任務進行微調,例如序列分類、標記分類或問答任務。對於文本生成等任務,你應該考慮GPT2等模型。
超出適用範圍的使用
該模型不應被用於故意為人們創造敵對或排斥性的環境。該模型並非用於對人物或事件進行事實性或真實性的表述,因此使用該模型生成此類內容超出了其能力範圍。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見Sheng等人(2021)和Bender等人(2021))。該模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(包括直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。
訓練詳情
評估
模型開發者報告了DistilmBERT的以下準確率結果(見GitHub倉庫):
以下是XNLI中6種可用語言的測試集結果。結果是在零樣本設置下計算的(在英語部分進行訓練,並在目標語言部分進行評估):
模型 |
英語 |
西班牙語 |
中文 |
德語 |
阿拉伯語 |
烏爾都語 |
mBERT基礎大小寫敏感(計算值) |
82.1 |
74.6 |
69.1 |
72.3 |
66.4 |
58.5 |
mBERT基礎不區分大小寫(報告值) |
81.4 |
74.3 |
63.8 |
70.5 |
62.1 |
58.3 |
DistilmBERT |
78.2 |
69.1 |
64.0 |
66.3 |
59.1 |
54.7 |
環境影響
可以使用Lacoste等人(2019)中提出的機器學習影響計算器來估算碳排放。
- 硬件類型:需要更多信息
- 使用時長:需要更多信息
- 雲服務提供商:需要更多信息
- 計算區域:需要更多信息
- 碳排放:需要更多信息
引用
@article{Sanh2019DistilBERTAD,
title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
journal={ArXiv},
year={2019},
volume={abs/1910.01108}
}
APA格式:
- Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.