🚀 Electra small ⚡ + SQuAD v2 ❓
Electra-small-discriminator を SQUAD v2.0データセット でファインチューニングし、質問応答(Q&A) の下流タスクに使用するモデルです。
🚀 クイックスタート
このモデルは、質問応答タスクに特化しており、SQuAD v2.0データセットを用いて学習されています。以下のセクションでは、モデルの詳細、学習方法、テスト結果、使用例などを説明します。
✨ 主な機能
- ELECTRAモデルを用いた自己教師付き学習により、少ない計算資源でも高い性能を発揮します。
- SQuAD v2.0データセットに含まれる回答不能な質問にも対応できるように学習されています。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
QnA_pipeline = pipeline('question-answering', model='mrm8488/electra-base-finetuned-squadv2')
QnA_pipeline({
'context': 'A new strain of flu that has the potential to become a pandemic has been identified in China by scientists.',
'question': 'What has been discovered by scientists from China ?'
})
{'answer': 'A new strain of flu', 'end': 19, 'score': 0.8650811568752914, 'start': 0}
📚 ドキュメント
下流タスク(Q&A) - モデル 🧠
ELECTRA は、自己教師付き言語表現学習の新しい手法です。比較的少ない計算資源でトランスフォーマーネットワークを事前学習することができます。ELECTRAモデルは、他のニューラルネットワークによって生成された「偽」の入力トークンと、「真」の入力トークンを区別するように学習されます。これは、GAN の識別器に似ています。小規模では、単一のGPUで学習しても強力な結果を得ることができます。大規模では、SQuAD 2.0 データセットで最先端の結果を達成します。
下流タスク(Q&A) - データセット 📚
SQuAD2.0 は、SQuAD1.1の100,000個の質問に、クラウドワーカーによって敵対的に作成された50,000個以上の回答不能な質問を追加したものです。これらの質問は、回答可能な質問と似たような見た目になるように作成されています。SQuAD2.0で良い結果を得るためには、システムは可能な限り質問に回答するだけでなく、段落に回答が含まれていない場合には回答を控える必要があります。
🔧 技術詳細
モデル学習 🏋️
このモデルは、Tesla P100 GPUと25GBのRAMを使用して以下のコマンドで学習されました。
python transformers/examples/question-answering/run_squad.py \
--model_type electra \
--model_name_or_path 'google/electra-small-discriminator' \
--do_eval \
--do_train \
--do_lower_case \
--train_file '/content/dataset/train-v2.0.json' \
--predict_file '/content/dataset/dev-v2.0.json' \
--per_gpu_train_batch_size 16 \
--learning_rate 3e-5 \
--num_train_epochs 10 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir '/content/output' \
--overwrite_output_dir \
--save_steps 1000 \
--version_2_with_negative
テストセット結果 🧾
指標 |
値 |
EM |
69.71 |
F1 |
73.44 |
サイズ |
50 MB |
{
'exact': 69.71279373368147,
'f1': 73.4439546123672,
'total': 11873,
'HasAns_exact': 69.92240215924427,
'HasAns_f1': 77.39542393937836,
'HasAns_total': 5928,
'NoAns_exact': 69.50378469301934,
'NoAns_f1': 69.50378469301934,
'NoAns_total': 5945,
'best_exact': 69.71279373368147,
'best_exact_thresh': 0.0,
'best_f1': 73.44395461236732,
'best_f1_thresh': 0.0
}
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
Created by Manuel Romero/@mrm8488 | LinkedIn
Made with ♥ in Spain