🚀 flan-t5-base用於抽取式問答
本項目採用經 SQuAD2.0 數據集微調的 flan-t5-base 模型,針對抽取式問答任務,在包含不可回答問題的問答對上進行訓練。
更新說明:在 transformers
4.31.0 版本之後,不再需要 use_remote_code=True
。
注意事項:為使模型正常工作,必須手動在問題開頭添加 <cls>
標記。該模型使用 <cls>
標記來進行“無答案”預測。由於 t5
分詞器不會自動添加此特殊標記,因此需要手動添加。
🚀 快速開始
模型概述
屬性 |
詳情 |
語言模型 |
flan-t5-base |
語言 |
英語 |
下游任務 |
抽取式問答 |
訓練數據 |
SQuAD 2.0 |
評估數據 |
SQuAD 2.0 |
基礎設施 |
1x NVIDIA 3070 |
模型使用示例
import torch
from transformers import(
AutoModelForQuestionAnswering,
AutoTokenizer,
pipeline
)
model_name = "sjrhuschlee/flan-t5-base-squad2"
nlp = pipeline(
'question-answering',
model=model_name,
tokenizer=model_name,
)
qa_input = {
'question': f'{nlp.tokenizer.cls_token}Where do I live?',
'context': 'My name is Sarah and I live in London'
}
res = nlp(qa_input)
model = AutoModelForQuestionAnswering.from_pretrained(
model_name,
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
question = f'{tokenizer.cls_token}Where do I live?'
context = 'My name is Sarah and I live in London'
encoding = tokenizer(question, context, return_tensors="pt")
output = model(
encoding["input_ids"],
attention_mask=encoding["attention_mask"]
)
all_tokens = tokenizer.convert_ids_to_tokens(encoding["input_ids"][0].tolist())
answer_tokens = all_tokens[torch.argmax(output["start_logits"]):torch.argmax(output["end_logits"]) + 1]
answer = tokenizer.decode(tokenizer.convert_tokens_to_ids(answer_tokens))
評估指標
{
"eval_HasAns_exact": 79.97638326585695,
"eval_HasAns_f1": 86.1444296592862,
"eval_HasAns_total": 5928,
"eval_NoAns_exact": 84.42388561816652,
"eval_NoAns_f1": 84.42388561816652,
"eval_NoAns_total": 5945,
"eval_best_exact": 82.2033184536343,
"eval_best_exact_thresh": 0.0,
"eval_best_f1": 85.28292588395921,
"eval_best_f1_thresh": 0.0,
"eval_exact": 82.2033184536343,
"eval_f1": 85.28292588395928,
"eval_runtime": 522.0299,
"eval_samples": 12001,
"eval_samples_per_second": 22.989,
"eval_steps_per_second": 0.96,
"eval_total": 11873
}
{
"eval_exact_match": 86.3197729422895,
"eval_f1": 92.94686836210295,
"eval_runtime": 442.1088,
"eval_samples": 10657,
"eval_samples_per_second": 24.105,
"eval_steps_per_second": 1.007
}
訓練過程
訓練超參數
以下是訓練過程中使用的超參數:
- 學習率:2e-05
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:6
- 總訓練批次大小:96
- 優化器:Adam(
betas=(0.9, 0.999)
,epsilon=1e-08
)
- 學習率調度器類型:線性
- 學習率調度器預熱比例:0.1
- 訓練輪數:4.0
框架版本
- Transformers 4.30.0.dev0
- Pytorch 2.0.1+cu117
- Datasets 2.12.0
- Tokenizers 0.13.3
📄 許可證
本項目採用 MIT 許可證。