🚀 flan-t5-large for Extractive QA
このモデルは、SQuAD2.0 データセットを使用して微調整された flan-t5-large モデルです。抽出型質問応答タスクのために、回答不能な質問を含む質問-回答ペアで訓練されています。
更新: Transformersバージョン4.31.0以降では、use_remote_code=True
は不要になりました。
このモデルは、PEFTライブラリ を通じて利用可能なLoRAを使用して訓練されています。
注意: このモデルを適切に動作させるには、質問の先頭に <cls>
トークンを手動で追加する必要があります。このモデルは <cls>
トークンを使用して「回答なし」の予測を行います。t5トークナイザーはこの特殊トークンを自動的に追加しないため、手動で追加する必要があります。
🚀 クイックスタート
このモデルは、抽出型質問応答タスクに特化した flan-t5-large
モデルです。以下に、モデルの使用方法や評価指標などの詳細を説明します。
✨ 主な機能
- 抽出型質問応答: 質問に対する回答を文章から抽出することができます。
- 回答不能な質問に対応:
<cls>
トークンを使用して、回答不能な質問に対して「回答なし」の予測を行うことができます。
- LoRAを使用した訓練: PEFTライブラリを通じてLoRAを使用して訓練されており、効率的な微調整が可能です。
📋 概要
属性 |
詳情 |
言語モデル |
flan-t5-large |
言語 |
英語 |
下流タスク |
抽出型質問応答 |
訓練データ |
SQuAD 2.0 |
評価データ |
SQuAD 2.0 |
インフラストラクチャ |
1x NVIDIA 3070 |
💻 使用例
基本的な使用法
このコードは、マージされた重み(ベースモデルの重み + LoRAの重み)を使用して、Transformersパイプラインで簡単に使用できるようにしています。PEFTライブラリを使用して重みを個別に使用する場合と同じパフォーマンスを発揮します。
import torch
from transformers import(
AutoModelForQuestionAnswering,
AutoTokenizer,
pipeline
)
model_name = "sjrhuschlee/flan-t5-large-squad2"
nlp = pipeline(
'question-answering',
model=model_name,
tokenizer=model_name,
)
qa_input = {
'question': f'{nlp.tokenizer.cls_token}Where do I live?',
'context': 'My name is Sarah and I live in London'
}
res = nlp(qa_input)
model = AutoModelForQuestionAnswering.from_pretrained(
model_name,
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
question = f'{tokenizer.cls_token}Where do I live?'
context = 'My name is Sarah and I live in London'
encoding = tokenizer(question, context, return_tensors="pt")
output = model(
encoding["input_ids"],
attention_mask=encoding["attention_mask"]
)
all_tokens = tokenizer.convert_ids_to_tokens(encoding["input_ids"][0].tolist())
answer_tokens = all_tokens[torch.argmax(output["start_logits"]):torch.argmax(output["end_logits"]) + 1]
answer = tokenizer.decode(tokenizer.convert_tokens_to_ids(answer_tokens))
高度な使用法
注意: これには、PEFTライブラリのPR https://github.com/huggingface/peft/pull/473 のコードが必要です。
from peft import LoraConfig, PeftModelForQuestionAnswering
from transformers import AutoModelForQuestionAnswering, AutoTokenizer
model_name = "sjrhuschlee/flan-t5-large-squad2"
📚 ドキュメント
評価指標
{
"eval_HasAns_exact": 85.08771929824562,
"eval_HasAns_f1": 90.598422845031,
"eval_HasAns_total": 5928,
"eval_NoAns_exact": 88.47771236333053,
"eval_NoAns_f1": 88.47771236333053,
"eval_NoAns_total": 5945,
"eval_best_exact": 86.78514276088605,
"eval_best_exact_thresh": 0.0,
"eval_best_f1": 89.53654936623764,
"eval_best_f1_thresh": 0.0,
"eval_exact": 86.78514276088605,
"eval_f1": 89.53654936623776,
"eval_runtime": 1908.3189,
"eval_samples": 12001,
"eval_samples_per_second": 6.289,
"eval_steps_per_second": 0.787,
"eval_total": 11873
}
{
"eval_HasAns_exact": 85.99810785241249,
"eval_HasAns_f1": 91.296119057944,
"eval_HasAns_total": 10570,
"eval_best_exact": 85.99810785241249,
"eval_best_exact_thresh": 0.0,
"eval_best_f1": 91.296119057944,
"eval_best_f1_thresh": 0.0,
"eval_exact": 85.99810785241249,
"eval_f1": 91.296119057944,
"eval_runtime": 1508.9596,
"eval_samples": 10657,
"eval_samples_per_second": 7.062,
"eval_steps_per_second": 0.883,
"eval_total": 10570
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。