🚀 DistilRoBERTa baseモデルカード
DistilRoBERTa baseは、RoBERTa-baseモデルを蒸留した軽量版の言語モデルです。高速でありながら、多くのタスクで良好な性能を発揮します。
🚀 クイックスタート
このモデルは、マスク言語モデリングに直接使用できます。以下のコードで簡単に試すことができます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilroberta-base')
>>> unmasker("Hello I'm a <mask> model.")
[{'score': 0.04673689603805542,
'sequence': "Hello I'm a business model.",
'token': 265,
'token_str': ' business'},
{'score': 0.03846118599176407,
'sequence': "Hello I'm a freelance model.",
'token': 18150,
'token_str': ' freelance'},
{'score': 0.03308931365609169,
'sequence': "Hello I'm a fashion model.",
'token': 2734,
'token_str': ' fashion'},
{'score': 0.03018997237086296,
'sequence': "Hello I'm a role model.",
'token': 774,
'token_str': ' role'},
{'score': 0.02111748233437538,
'sequence': "Hello I'm a Playboy model.",
'token': 24526,
'token_str': ' Playboy'}]
✨ 主な機能
- 軽量高速:RoBERTa-baseモデルを蒸留しており、パラメータ数が少なく、平均で2倍高速です。
- 多様なタスク対応:文書分類、トークン分類、質問応答などの下流タスクに微調整可能です。
📚 ドキュメント
モデル詳細
このモデルは、RoBERTa-baseモデルの蒸留版です。DistilBERTと同じトレーニング手順に従っています。蒸留プロセスのコードはこちらで確認できます。
このモデルは大文字小文字を区別します。例えば、englishとEnglishは異なるトークンとして扱われます。
モデルは6層、768次元、12ヘッドで構成され、合計8200万個のパラメータを持っています(RoBERTa-baseは1億2500万個)。
属性 |
详情 |
モデルタイプ |
Transformerベースの言語モデル |
開発者 |
Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf (Hugging Face) |
言語 |
英語 |
ライセンス |
Apache 2.0 |
関連モデル |
RoBERTa-baseモデルカード |
詳細情報リソース |
GitHubリポジトリ、関連論文 |
用途
直接利用と下流利用
生のモデルをマスク言語モデリングに使用することもできますが、主に下流タスクで微調整することを想定しています。モデルハブを参照して、興味のあるタスクで微調整されたバージョンを探してください。
このモデルは、文書分類、トークン分類、質問応答など、文全体(マスクされている場合もある)を使用して判断を下すタスクでの微調整を主な目的としています。テキスト生成などのタスクには、GPT2などのモデルを使用することをお勧めします。
範囲外の使用
このモデルは、人々に敵意や疎外感を抱かせる環境を意図的に作り出すために使用してはいけません。モデルは、人や出来事の事実や真実を表現するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
バイアス、リスク、制限
多くの研究が、言語モデルのバイアスと公平性の問題を探っています(例えば、Sheng et al. (2021) や Bender et al. (2021) を参照)。モデルが生成する予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的・職業的グループにまたがる有害なステレオタイプが含まれる可能性があります。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilroberta-base')
>>> unmasker("The man worked as a <mask>.")
[{'score': 0.1237526461482048,
'sequence': 'The man worked as a waiter.',
'token': 38233,
'token_str': ' waiter'},
{'score': 0.08968018740415573,
'sequence': 'The man worked as a waitress.',
'token': 35698,
'token_str': ' waitress'},
{'score': 0.08387645334005356,
'sequence': 'The man worked as a bartender.',
'token': 33080,
'token_str': ' bartender'},
{'score': 0.061059024184942245,
'sequence': 'The man worked as a mechanic.',
'token': 25682,
'token_str': ' mechanic'},
{'score': 0.03804653510451317,
'sequence': 'The man worked as a courier.',
'token': 37171,
'token_str': ' courier'}]
>>> unmasker("The woman worked as a <mask>.")
[{'score': 0.23149248957633972,
'sequence': 'The woman worked as a waitress.',
'token': 35698,
'token_str': ' waitress'},
{'score': 0.07563332468271255,
'sequence': 'The woman worked as a waiter.',
'token': 38233,
'token_str': ' waiter'},
{'score': 0.06983394920825958,
'sequence': 'The woman worked as a bartender.',
'token': 33080,
'token_str': ' bartender'},
{'score': 0.05411609262228012,
'sequence': 'The woman worked as a nurse.',
'token': 9008,
'token_str': ' nurse'},
{'score': 0.04995106905698776,
'sequence': 'The woman worked as a maid.',
'token': 29754,
'token_str': ' maid'}]
推奨事項
ユーザー(直接利用者と下流利用者の両方)は、モデルのリスク、バイアス、制限について認識する必要があります。
トレーニング詳細
DistilRoBERTaは、OpenWebTextCorpus で事前学習されました。これはOpenAIのWebTextデータセットの再現版であり、教師モデルのRoBERTaよりも約4分の1のトレーニングデータしかありません。トレーニングの詳細については、roberta-baseモデルカード を参照してください。
評価
下流タスクで微調整した場合、このモデルは以下の結果を達成します(GitHubリポジトリ を参照)。
Glueテスト結果:
タスク |
MNLI |
QQP |
QNLI |
SST-2 |
CoLA |
STS-B |
MRPC |
RTE |
|
84.0 |
89.4 |
90.8 |
92.5 |
59.3 |
88.3 |
86.6 |
67.9 |
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
- ハードウェアタイプ:詳細情報が必要
- 使用時間:詳細情報が必要
- クラウドプロバイダー:詳細情報が必要
- コンピュートリージョン:詳細情報が必要
- 排出された炭素量:詳細情報が必要
引用
@article{Sanh2019DistilBERTAD,
title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
journal={ArXiv},
year={2019},
volume={abs/1910.01108}
}
APA形式
- Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。