🚀 T5-base在SQuAD上微調用於問題生成
本項目基於Google的T5模型,在SQuAD v1.1數據集上進行微調,用於問題生成。方法是將答案前置到上下文之前。
📚 T5模型詳情
T5模型由Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu在論文Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer中提出,以下是論文摘要:
遷移學習是自然語言處理(NLP)中的一種強大技術,即先在數據豐富的任務上預訓練模型,再在下游任務上進行微調。遷移學習的有效性催生了多種方法、方法論和實踐。在本文中,我們通過引入一個統一框架,將每個語言問題轉化為文本到文本的格式,探索了NLP遷移學習技術的領域。我們的系統研究比較了數十個語言理解任務中的預訓練目標、架構、無標籤數據集、遷移方法和其他因素。通過將我們的探索見解與大規模數據以及新的“Colossal Clean Crawled Corpus”相結合,我們在許多涵蓋摘要、問答、文本分類等的基準測試中取得了最先進的結果。為了促進未來NLP遷移學習的研究,我們發佈了數據集、預訓練模型和代碼。

📚 下游任務(問答)詳情 - 數據集
數據集ID:squad
,來自 Huggingface/NLP
數據集 |
劃分 |
樣本數量 |
squad |
訓練集 |
87599 |
squad |
驗證集 |
10570 |
如何從 nlp 加載該數據集:
train_dataset = nlp.load_dataset('squad', split=nlp.Split.TRAIN)
valid_dataset = nlp.load_dataset('squad', split=nlp.Split.VALIDATION)
在 NLP Viewer 中查看該數據集和其他數據集的更多信息。
🏋️ 模型微調
訓練腳本是 Suraj Patil 的 這個優秀腳本 的輕微修改版本。
他還在 問題生成 方面做了很棒的研究。
🚀 模型實戰
from transformers import AutoModelWithLMHead, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-question-generation-ap")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-question-generation-ap")
def get_question(answer, context, max_length=64):
input_text = "answer: %s context: %s </s>" % (answer, context)
features = tokenizer([input_text], return_tensors='pt')
output = model.generate(input_ids=features['input_ids'],
attention_mask=features['attention_mask'],
max_length=max_length)
return tokenizer.decode(output[0])
context = "Manuel has created RuPERTa-base with the support of HF-Transformers and Google"
answer = "Manuel"
get_question(answer, context)
📄 引用
如果您想引用此模型,可以使用以下內容:
@misc{mromero2021t5-base-finetuned-question-generation-ap,
title={T5 (base) fine-tuned on SQUAD for QG via AP},
author={Romero, Manuel},
publisher={Hugging Face},
journal={Hugging Face Hub},
howpublished={\url{https://huggingface.co/mrm8488/t5-base-finetuned-question-generation-ap}},
year={2021}
}
由 Manuel Romero/@mrm8488 創建 | 領英
於西班牙用心打造 ❤️