t5-base-qa-squad-v1.1-portuguese开源问答模型

首页

T5 Base Qa Squad V1.1 Portuguese

由 pierreguillou 开发

基于T5的葡萄牙语问答模型，使用SQuAD v1.1葡萄牙语数据集微调而成，适用于问答任务

问答系统

Transformers

#葡萄牙语问答 #T5文本生成 #SQuAD微调

下载量 194

发布时间 : 3/2/2022

模型简介

该模型是基于T5架构的葡萄牙语问答模型，专门针对问答任务进行了微调，能够根据提供的上下文回答问题。

模型特点

葡萄牙语问答能力

专门针对葡萄牙语问答任务优化的模型

基于T5架构

使用强大的文本到文本转换Transformer架构

SQuAD数据集微调

使用葡萄牙语版SQuAD v1.1数据集进行微调

模型能力

文本到文本生成

问答系统

葡萄牙语理解

使用案例

问答系统

基于上下文的问答

根据提供的文本内容回答相关问题

在SQuAD v1.1葡萄牙语测试集上F1值达到79.3

教育

学习辅助工具

帮助学生从教材中快速获取问题答案

🚀 T5基础模型针对葡萄牙语SQUaD v1.1数据集微调的问答模型

本项目基于T5基础模型，针对葡萄牙语的SQUaD v1.1数据集进行微调，得到了一个用于问答任务的模型。该模型能够根据给定的上下文回答问题，在葡萄牙语问答场景中具有一定的应用价值。

🚀 快速开始

你可以通过以下步骤快速使用该模型进行推理：

安装所需的库：

# install pytorch: check https://pytorch.org/
# !pip install transformers

加载模型和分词器：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# model & tokenizer
model_name = "pierreguillou/t5-base-qa-squad-v1.1-portuguese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

设置参数：

# parameters
max_target_length=32
num_beams=1
early_stopping=True

准备输入文本：

input_text  = 'question: Quando foi descoberta a Covid-19? context: A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.'
label = '1 de dezembro de 2019'

进行推理：

inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(inputs["input_ids"],
                             max_length=max_target_length, 
                             num_beams=num_beams, 
                             early_stopping=early_stopping
                            )
pred = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

输出结果：

print('true answer |', label)
print('pred        |', pred)

✨ 主要特性

语言支持：该模型支持葡萄牙语的问答任务。
微调基础：基于unicamp-dl/ptt5-base-portuguese-vocab模型进行微调。
数据集：在葡萄牙语的SQUAD v1.1数据集上进行训练。
评估指标：在验证集上的F1值为79.3，精确匹配率为67.3983。

💻 使用示例

基础用法

# install pytorch: check https://pytorch.org/
# !pip install transformers 
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# model & tokenizer
model_name = "pierreguillou/t5-base-qa-squad-v1.1-portuguese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# parameters
max_target_length=32
num_beams=1
early_stopping=True

input_text  = 'question: Quando foi descoberta a Covid-19? context: A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.'
label = '1 de dezembro de 2019'

inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(inputs["input_ids"],
                             max_length=max_target_length, 
                             num_beams=num_beams, 
                             early_stopping=early_stopping
                            )
pred = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
             
print('true answer |', label)
print('pred        |', pred)

高级用法

!pip install transformers
import transformers
from transformers import pipeline

# model
model_name = "pierreguillou/t5-base-qa-squad-v1.1-portuguese"

# parameters
max_target_length=32
num_beams=1
early_stopping=True
clean_up_tokenization_spaces=True

input_text  = 'question: Quando foi descoberta a Covid-19? context: A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.'
label = '1 de dezembro de 2019'
    
text2text = pipeline(
                    "text2text-generation",
                     model=model_name,
                     max_length=max_target_length, 
                     num_beams=num_beams, 
                     early_stopping=early_stopping,
                     clean_up_tokenization_spaces=clean_up_tokenization_spaces
                    )

pred = text2text(input_text)

print('true answer |', label)
print('pred        |', pred)

📚 详细文档

博客文章

你可以阅读博客文章 NLP nas empresas | Como eu treinei um modelo T5 em português na tarefa QA no Google Colab (27/01/2022) 了解更多关于该模型的训练过程。

小工具与应用

小工具：你可以在本页面的小工具中测试该模型。
应用：使用 QA App | T5 base pt 应用，该应用允许使用在SQuAD v1.1葡萄牙语数据集上微调的T5基础模型进行问答任务。

🔧 技术细节

训练代码

微调的笔记本代码 (HuggingFace_Notebook_t5-base-portuguese-vocab_question_answering_QA_squad_v11_pt.ipynb) 可以在GitHub上找到。

超参数

# do training and evaluation
do_train = True
do_eval= True

# batch
batch_size = 4
gradient_accumulation_steps = 3
per_device_train_batch_size = batch_size
per_device_eval_batch_size = per_device_train_batch_size*16

# LR, wd, epochs
learning_rate = 1e-4
weight_decay = 0.01
num_train_epochs = 10
fp16 = True

# logs
logging_strategy = "steps"
logging_first_step = True 
logging_steps = 3000     # if logging_strategy = "steps"
eval_steps = logging_steps 

# checkpoints
evaluation_strategy = logging_strategy
save_strategy = logging_strategy
save_steps = logging_steps
save_total_limit = 3

# best model
load_best_model_at_end = True
metric_for_best_model = "f1" #"loss"
if metric_for_best_model == "loss":
  greater_is_better = False
else:
  greater_is_better = True  

# evaluation
num_beams = 1

训练结果

Num examples = 87510
Num Epochs = 10
Instantaneous batch size per device = 4
Total train batch size (w. parallel, distributed & accumulation) = 12
Gradient Accumulation steps = 3
Total optimization steps = 72920
 
Step 	Training Loss  Exact Match	F1
3000 	0.776100	     61.807001  	75.114517
6000 	0.545900	     65.260170  	77.468930
9000 	0.460500	     66.556291  	78.491938
12000	0.393400	     66.821192  	78.745397
15000	0.379800  	   66.603595  	78.815515
18000	0.298100  	   67.578051  	79.287899
21000	0.303100  	   66.991485  	78.979669
24000	0.251600  	   67.275307  	78.929923

27000	0.237500	     66.972564  	79.333612

30000	0.220500 	    66.915799  	79.236574
33000	0.182600	     67.029328  	78.964212
36000	0.190600 	    66.982025  	79.086125

📄 许可证

文档中未提及许可证相关信息。

📋 模型信息

属性	详情
模型类型	针对葡萄牙语SQUaD v1.1数据集微调的T5基础问答模型
训练数据	葡萄牙语的SQUAD v1.1数据集
评估指标	F1、精确匹配率、召回率、准确率等