🚀 DistilBERT base model (uncased)
DistilBERTのベースモデル(大文字小文字を区別しない)を使用したゼロショット分類モデルです。
🚀 クイックスタート
このコードを実行することで、DistilBERTのモデルを使用してゼロショット分類を行うことができます。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")
model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")
✨ 主な機能
このモデルは、テキスト分類タスクに使用できます。
📚 ドキュメント
🔍 モデルの詳細
モデルの説明: これは、大文字小文字を区別しないDistilBERTモデル を Multi-Genre Natural Language Inference (MNLI) データセットでファインチューニングした、ゼロショット分類タスク用のモデルです。
⚠️ リスク、制限事項、バイアス
コンテンツ警告: このセクションには、不快な内容や攻撃的な内容、歴史的および現在のステレオタイプを広める内容が含まれています。
多くの研究が、言語モデルのバイアスと公平性の問題を探っています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。
🔧 学習について
学習データ
この大文字小文字を区別しないDistilBERTモデルは、Multi-Genre Natural Language Inference (MultiNLI) コーパスで事前学習されています。これは、テキスト的含意情報で注釈付けされた433kの文ペアのクラウドソーシングされたコレクションです。このコーパスは、口頭および書面の様々なジャンルのテキストをカバーしており、独自のクロスジャンル汎化評価をサポートしています。
このモデルは、大文字小文字を区別しません。つまり、"english" と "English" を区別しません。
学習手順
学習は、次のハイパーパラメータを使用して p3.2xlarge AWS EC2上で行われます。
$ run_glue.py \
--model_name_or_path distilbert-base-uncased \
--task_name mnli \
--do_train \
--do_eval \
--max_seq_length 128 \
--per_device_train_batch_size 16 \
--learning_rate 2e-5 \
--num_train_epochs 5 \
--output_dir /tmp/distilbert-base-uncased_mnli/
📊 評価
評価結果
下流タスクでファインチューニングした場合、このモデルは次の結果を達成します。
- エポック数 = 5.0
- 評価精度 = 0.8206875508543532
- 評価損失 = 0.8706700205802917
- 評価実行時間 = 17.8278
- 評価サンプル数/秒 = 551.498
MNLIとMNLI-mmの結果:
タスク |
MNLI |
MNLI-mm |
|
82.0 |
82.0 |
🌱 環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。ハードウェアタイプは、関連論文 に基づいて提示しています。
ハードウェアタイプ: 1 NVIDIA Tesla V100 GPU
使用時間: 不明
クラウドプロバイダー: AWS EC2 P3
コンピュートリージョン: 不明
排出された炭素量: (消費電力 x 時間 x 電力網の位置に基づく炭素排出量): 不明