🚀 DistilBERT base multilingual (cased)
DistilBERT base multilingual (cased) は、BERT base multilingual モデルを蒸留した軽量版の言語モデルです。104 言語の Wikipedia データで学習され、多言語処理に適しています。
🚀 クイックスタート
このモデルは、マスク言語モデリングや次文予測に直接使用できます。以下は、マスク言語モデリングのパイプラインを使用した例です。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")
[{'score': 0.040800247341394424,
'sequence': "Hello I'm a virtual model.",
'token': 37859,
'token_str': 'virtual'},
{'score': 0.020015988498926163,
'sequence': "Hello I'm a big model.",
'token': 22185,
'token_str': 'big'},
{'score': 0.018680453300476074,
'sequence': "Hello I'm a Hello model.",
'token': 31178,
'token_str': 'Hello'},
{'score': 0.017396586015820503,
'sequence': "Hello I'm a model model.",
'token': 13192,
'token_str': 'model'},
{'score': 0.014229810796678066,
'sequence': "Hello I'm a perfect model.",
'token': 43477,
'token_str': 'perfect'}]
✨ 主な機能
- 軽量性: 元の BERT base multilingual モデルよりもパラメータ数が少なく、処理速度が速いです。
- 多言語対応: 104 言語の Wikipedia データで学習されているため、多言語のテキスト処理に対応しています。
- 柔軟性: マスク言語モデリングや次文予測などのタスクに直接使用でき、下流タスクにも微調整可能です。
📚 ドキュメント
モデル詳細
このモデルは、BERT base multilingual モデル の蒸留版です。蒸留プロセスのコードは こちら で確認できます。このモデルは大文字小文字を区別します。
モデルは、ここ に列挙されている 104 言語の Wikipedia の連結データで学習されています。
モデルは 6 層、768 次元、12 ヘッドで構成され、合計 1 億 3400 万個のパラメータを持っています(mBERT-base の 1 億 7700 万個のパラメータと比較)。
平均すると、DistilmBERT と呼ばれるこのモデルは、mBERT-base の約 2 倍の速度で動作します。
このモデルの潜在的なユーザーは、BERT base multilingual モデルのモデルカード を参照して、使用方法、制限事項、潜在的なバイアスについて詳しく学ぶことをお勧めします。
用途
直接使用と下流タスクでの使用
生のモデルは、マスク言語モデリングまたは次文予測に使用できますが、主に下流タスクで微調整することを目的としています。関心のあるタスクで微調整されたバージョンを探すには、モデルハブ を参照してください。
このモデルは主に、文全体(マスクされている場合もある)を使用して決定を下すタスク、例えばシーケンス分類、トークン分類、質問応答などでの微調整を目的としています。テキスト生成などのタスクには、GPT2 のようなモデルを使用することをお勧めします。
想定外の使用
このモデルは、人々に敵意を抱かせたり、疎外感を与えたりする環境を意図的に作るために使用してはいけません。このモデルは、人や出来事を事実的または真実に表現するように訓練されていないため、そのような内容を生成するためにモデルを使用することは、このモデルの能力範囲外です。
バイアス、リスク、制限事項
言語モデルのバイアスと公平性の問題に関する重要な研究が行われています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。このモデルによって生成された予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的および職業的グループにまたがる有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザー(直接ユーザーと下流ユーザーの両方)は、このモデルのリスク、バイアス、および制限事項を認識する必要があります。
学習詳細
評価
モデル開発者は、DistilmBERT の以下の精度結果を報告しています(GitHub リポジトリ を参照)。
以下は、XNLI で利用可能な 6 言語のテストセットでの結果です。結果はゼロショット設定(英語部分で学習し、対象言語部分で評価)で計算されています。
モデル |
英語 |
スペイン語 |
中国語 |
ドイツ語 |
アラビア語 |
ウルドゥー語 |
mBERT base cased (計算値) |
82.1 |
74.6 |
69.1 |
72.3 |
66.4 |
58.5 |
mBERT base uncased (報告値) |
81.4 |
74.3 |
63.8 |
70.5 |
62.1 |
58.3 |
DistilmBERT |
78.2 |
69.1 |
64.0 |
66.3 |
59.1 |
54.7 |
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
- ハードウェアタイプ: 詳細情報が必要です。
- 使用時間: 詳細情報が必要です。
- クラウドプロバイダー: 詳細情報が必要です。
- コンピュートリージョン: 詳細情報が必要です。
- 排出された炭素量: 詳細情報が必要です。
引用
@article{Sanh2019DistilBERTAD,
title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
journal={ArXiv},
year={2019},
volume={abs/1910.01108}
}
APA
- Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.
📄 ライセンス
このモデルは、Apache 2.0 ライセンスの下で提供されています。