🚀 T5-base在SQuAD上微调用于问题生成
本项目基于Google的T5模型,在SQuAD v1.1数据集上进行微调,用于问题生成。方法是将答案前置到上下文之前。
📚 T5模型详情
T5模型由Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu在论文Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer中提出,以下是论文摘要:
迁移学习是自然语言处理(NLP)中的一种强大技术,即先在数据丰富的任务上预训练模型,再在下游任务上进行微调。迁移学习的有效性催生了多种方法、方法论和实践。在本文中,我们通过引入一个统一框架,将每个语言问题转化为文本到文本的格式,探索了NLP迁移学习技术的领域。我们的系统研究比较了数十个语言理解任务中的预训练目标、架构、无标签数据集、迁移方法和其他因素。通过将我们的探索见解与大规模数据以及新的“Colossal Clean Crawled Corpus”相结合,我们在许多涵盖摘要、问答、文本分类等的基准测试中取得了最先进的结果。为了促进未来NLP迁移学习的研究,我们发布了数据集、预训练模型和代码。

📚 下游任务(问答)详情 - 数据集
数据集ID:squad
,来自 Huggingface/NLP
数据集 |
划分 |
样本数量 |
squad |
训练集 |
87599 |
squad |
验证集 |
10570 |
如何从 nlp 加载该数据集:
train_dataset = nlp.load_dataset('squad', split=nlp.Split.TRAIN)
valid_dataset = nlp.load_dataset('squad', split=nlp.Split.VALIDATION)
在 NLP Viewer 中查看该数据集和其他数据集的更多信息。
🏋️ 模型微调
训练脚本是 Suraj Patil 的 这个优秀脚本 的轻微修改版本。
他还在 问题生成 方面做了很棒的研究。
🚀 模型实战
from transformers import AutoModelWithLMHead, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-question-generation-ap")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-question-generation-ap")
def get_question(answer, context, max_length=64):
input_text = "answer: %s context: %s </s>" % (answer, context)
features = tokenizer([input_text], return_tensors='pt')
output = model.generate(input_ids=features['input_ids'],
attention_mask=features['attention_mask'],
max_length=max_length)
return tokenizer.decode(output[0])
context = "Manuel has created RuPERTa-base with the support of HF-Transformers and Google"
answer = "Manuel"
get_question(answer, context)
📄 引用
如果您想引用此模型,可以使用以下内容:
@misc{mromero2021t5-base-finetuned-question-generation-ap,
title={T5 (base) fine-tuned on SQUAD for QG via AP},
author={Romero, Manuel},
publisher={Hugging Face},
journal={Hugging Face Hub},
howpublished={\url{https://huggingface.co/mrm8488/t5-base-finetuned-question-generation-ap}},
year={2021}
}
由 Manuel Romero/@mrm8488 创建 | 领英
于西班牙用心打造 ❤️