🚀 T5问题生成与问答模型
本模型是一个基于T5的Transformer模型(airklizz/t5-base-multi-fr-wiki-news),针对法语进行了微调,可执行三种不同的任务,为自然语言处理中的问题生成、问答和答案提取提供了有效的解决方案。
🚀 快速开始
from transformers import T5ForConditionalGeneration, T5Tokenizer
model = T5ForConditionalGeneration.from_pretrained("JDBN/t5-base-fr-qg-fquad")
tokenizer = T5Tokenizer.from_pretrained("JDBN/t5-base-fr-qg-fquad")
✨ 主要特性
此模型是一个T5 Transformer模型(airklizz/t5-base-multi-fr-wiki-news),针对法语在3个不同的任务上进行了微调:
该模型在FQuAD验证数据集上取得了相当不错的结果。
📦 安装指南
暂未提供具体安装步骤,可参考相关库的官方文档进行安装,如transformers
库。
💻 使用示例
基础用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
model = T5ForConditionalGeneration.from_pretrained("JDBN/t5-base-fr-qg-fquad")
tokenizer = T5Tokenizer.from_pretrained("JDBN/t5-base-fr-qg-fquad")
高级用法
暂未提供高级用法的代码示例,可根据具体任务需求对模型进行进一步的调用和调整。
📚 详细文档
预期用途与限制
该模型适用于前面提到的3个任务,未在其他任务上进行测试。
训练数据
初始使用的模型为https://huggingface.co/airKlizz/t5-base-multi-fr-wiki-news 。此模型在由FQuAD和PIAF组成的数据集上针对前面提到的3个任务进行了微调。
数据预处理方式如下:
- 问题生成:"generate question: Barack Hussein Obama, né le 4 aout 1961, est un homme politique américain et avocat. Il a été élu en 2009 pour devenir le 44ème président des Etats-Unis d'Amérique."
- 问答:"question: Quand Barack Hussein Obamaa-t-il été élu président des Etats-Unis d’Amérique? context: Barack Hussein Obama, né le 4 aout 1961, est un homme politique américain et avocat. Il a été élu en 2009 pour devenir le 44ème président des Etats-Unis d’Amérique."
- 答案提取:"extract_answers: Barack Hussein Obama, né le 4 aout 1961, est un homme politique américain et avocat. Il a été élu en 2009 pour devenir le 44ème président des Etats-Unis d’Amérique ."
我们使用的预处理方法在https://github.com/patil-suraj/question_generation 中实现。
评估结果
在FQuAD验证集上的结果
BLEU_1 |
BLEU_2 |
BLEU_3 |
BLEU_4 |
METEOR |
ROUGE_L |
CIDEr |
0.290 |
0.203 |
0.149 |
0.111 |
0.197 |
0.284 |
1.038 |
问答指标
为了评估该模型的问答性能,我们将此问答模型(https://huggingface.co/illuin/camembert-base-fquad )在FQuAD原始问题和T5生成问题上的表现进行了对比。
问题类型 |
精确匹配率 |
F1分数 |
原始FQuAD问题 |
54.015 |
77.466 |
生成的问题 |
45.765 |
67.306 |
BibTeX引用和引用信息
@misc{githubPatil,
author = {Patil Suraj},
title = {question generation GitHub repository},
year = {2020},
howpublished={\url{https://github.com/patil-suraj/question_generation}}
}
@article{T5,
title={Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
author={Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
year={2019},
eprint={1910.10683},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{dhoffschmidt2020fquad,
title={FQuAD: French Question Answering Dataset},
author={Martin d'Hoffschmidt and Wacim Belblidia and Tom Brendlé and Quentin Heinrich and Maxime Vidal},
year={2020},
eprint={2002.06071},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🔧 技术细节
该模型基于T5 Transformer架构,在法语数据集上进行微调以适应特定任务。通过对不同任务的训练,模型学习到了问题生成、问答和答案提取的模式。在评估过程中,使用了多种指标(如BLEU、METEOR、ROUGE等)来衡量模型的性能,以确保其在实际应用中的有效性。
📄 许可证
原文档未提及许可证信息。