🚀 T5問題生成與問答模型
本模型是一個基於T5的Transformer模型(airklizz/t5-base-multi-fr-wiki-news),針對法語進行了微調,可執行三種不同的任務,為自然語言處理中的問題生成、問答和答案提取提供了有效的解決方案。
🚀 快速開始
from transformers import T5ForConditionalGeneration, T5Tokenizer
model = T5ForConditionalGeneration.from_pretrained("JDBN/t5-base-fr-qg-fquad")
tokenizer = T5Tokenizer.from_pretrained("JDBN/t5-base-fr-qg-fquad")
✨ 主要特性
此模型是一個T5 Transformer模型(airklizz/t5-base-multi-fr-wiki-news),針對法語在3個不同的任務上進行了微調:
該模型在FQuAD驗證數據集上取得了相當不錯的結果。
📦 安裝指南
暫未提供具體安裝步驟,可參考相關庫的官方文檔進行安裝,如transformers
庫。
💻 使用示例
基礎用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
model = T5ForConditionalGeneration.from_pretrained("JDBN/t5-base-fr-qg-fquad")
tokenizer = T5Tokenizer.from_pretrained("JDBN/t5-base-fr-qg-fquad")
高級用法
暫未提供高級用法的代碼示例,可根據具體任務需求對模型進行進一步的調用和調整。
📚 詳細文檔
預期用途與限制
該模型適用於前面提到的3個任務,未在其他任務上進行測試。
訓練數據
初始使用的模型為https://huggingface.co/airKlizz/t5-base-multi-fr-wiki-news 。此模型在由FQuAD和PIAF組成的數據集上針對前面提到的3個任務進行了微調。
數據預處理方式如下:
- 問題生成:"generate question: Barack Hussein Obama, né le 4 aout 1961, est un homme politique américain et avocat. Il a été élu en 2009 pour devenir le 44ème président des Etats-Unis d'Amérique."
- 問答:"question: Quand Barack Hussein Obamaa-t-il été élu président des Etats-Unis d’Amérique? context: Barack Hussein Obama, né le 4 aout 1961, est un homme politique américain et avocat. Il a été élu en 2009 pour devenir le 44ème président des Etats-Unis d’Amérique."
- 答案提取:"extract_answers: Barack Hussein Obama, né le 4 aout 1961, est un homme politique américain et avocat. Il a été élu en 2009 pour devenir le 44ème président des Etats-Unis d’Amérique ."
我們使用的預處理方法在https://github.com/patil-suraj/question_generation 中實現。
評估結果
在FQuAD驗證集上的結果
BLEU_1 |
BLEU_2 |
BLEU_3 |
BLEU_4 |
METEOR |
ROUGE_L |
CIDEr |
0.290 |
0.203 |
0.149 |
0.111 |
0.197 |
0.284 |
1.038 |
問答指標
為了評估該模型的問答性能,我們將此問答模型(https://huggingface.co/illuin/camembert-base-fquad )在FQuAD原始問題和T5生成問題上的表現進行了對比。
問題類型 |
精確匹配率 |
F1分數 |
原始FQuAD問題 |
54.015 |
77.466 |
生成的問題 |
45.765 |
67.306 |
BibTeX引用和引用信息
@misc{githubPatil,
author = {Patil Suraj},
title = {question generation GitHub repository},
year = {2020},
howpublished={\url{https://github.com/patil-suraj/question_generation}}
}
@article{T5,
title={Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
author={Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
year={2019},
eprint={1910.10683},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{dhoffschmidt2020fquad,
title={FQuAD: French Question Answering Dataset},
author={Martin d'Hoffschmidt and Wacim Belblidia and Tom Brendlé and Quentin Heinrich and Maxime Vidal},
year={2020},
eprint={2002.06071},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🔧 技術細節
該模型基於T5 Transformer架構,在法語數據集上進行微調以適應特定任務。通過對不同任務的訓練,模型學習到了問題生成、問答和答案提取的模式。在評估過程中,使用了多種指標(如BLEU、METEOR、ROUGE等)來衡量模型的性能,以確保其在實際應用中的有效性。
📄 許可證
原文檔未提及許可證信息。