t5-base-qa-squad-v1.1-portuguese開源問答模型

首頁

T5 Base Qa Squad V1.1 Portuguese

由pierreguillou開發

基於T5的葡萄牙語問答模型，使用SQuAD v1.1葡萄牙語數據集微調而成，適用於問答任務

問答系統

Transformers

#葡萄牙語問答 #T5文本生成 #SQuAD微調

下載量 194

發布時間 : 3/2/2022

模型概述

該模型是基於T5架構的葡萄牙語問答模型，專門針對問答任務進行了微調，能夠根據提供的上下文回答問題。

模型特點

葡萄牙語問答能力

專門針對葡萄牙語問答任務優化的模型

基於T5架構

使用強大的文本到文本轉換Transformer架構

SQuAD數據集微調

使用葡萄牙語版SQuAD v1.1數據集進行微調

模型能力

文本到文本生成

問答系統

葡萄牙語理解

使用案例

問答系統

基於上下文的問答

根據提供的文本內容回答相關問題

在SQuAD v1.1葡萄牙語測試集上F1值達到79.3

教育

學習輔助工具

幫助學生從教材中快速獲取問題答案

🚀 T5基礎模型針對葡萄牙語SQUaD v1.1數據集微調的問答模型

本項目基於T5基礎模型，針對葡萄牙語的SQUaD v1.1數據集進行微調，得到了一個用於問答任務的模型。該模型能夠根據給定的上下文回答問題，在葡萄牙語問答場景中具有一定的應用價值。

🚀 快速開始

你可以通過以下步驟快速使用該模型進行推理：

安裝所需的庫：

# install pytorch: check https://pytorch.org/
# !pip install transformers

加載模型和分詞器：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# model & tokenizer
model_name = "pierreguillou/t5-base-qa-squad-v1.1-portuguese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

設置參數：

# parameters
max_target_length=32
num_beams=1
early_stopping=True

準備輸入文本：

input_text  = 'question: Quando foi descoberta a Covid-19? context: A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.'
label = '1 de dezembro de 2019'

進行推理：

inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(inputs["input_ids"],
                             max_length=max_target_length, 
                             num_beams=num_beams, 
                             early_stopping=early_stopping
                            )
pred = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

輸出結果：

print('true answer |', label)
print('pred        |', pred)

✨ 主要特性

語言支持：該模型支持葡萄牙語的問答任務。
微調基礎：基於unicamp-dl/ptt5-base-portuguese-vocab模型進行微調。
數據集：在葡萄牙語的SQUAD v1.1數據集上進行訓練。
評估指標：在驗證集上的F1值為79.3，精確匹配率為67.3983。

💻 使用示例

基礎用法

# install pytorch: check https://pytorch.org/
# !pip install transformers 
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# model & tokenizer
model_name = "pierreguillou/t5-base-qa-squad-v1.1-portuguese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# parameters
max_target_length=32
num_beams=1
early_stopping=True

input_text  = 'question: Quando foi descoberta a Covid-19? context: A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.'
label = '1 de dezembro de 2019'

inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(inputs["input_ids"],
                             max_length=max_target_length, 
                             num_beams=num_beams, 
                             early_stopping=early_stopping
                            )
pred = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
             
print('true answer |', label)
print('pred        |', pred)

高級用法

!pip install transformers
import transformers
from transformers import pipeline

# model
model_name = "pierreguillou/t5-base-qa-squad-v1.1-portuguese"

# parameters
max_target_length=32
num_beams=1
early_stopping=True
clean_up_tokenization_spaces=True

input_text  = 'question: Quando foi descoberta a Covid-19? context: A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.'
label = '1 de dezembro de 2019'
    
text2text = pipeline(
                    "text2text-generation",
                     model=model_name,
                     max_length=max_target_length, 
                     num_beams=num_beams, 
                     early_stopping=early_stopping,
                     clean_up_tokenization_spaces=clean_up_tokenization_spaces
                    )

pred = text2text(input_text)

print('true answer |', label)
print('pred        |', pred)

📚 詳細文檔

博客文章

你可以閱讀博客文章 NLP nas empresas | Como eu treinei um modelo T5 em português na tarefa QA no Google Colab (27/01/2022) 瞭解更多關於該模型的訓練過程。

小工具與應用

小工具：你可以在本頁面的小工具中測試該模型。
應用：使用 QA App | T5 base pt 應用，該應用允許使用在SQuAD v1.1葡萄牙語數據集上微調的T5基礎模型進行問答任務。

🔧 技術細節

訓練代碼

微調的筆記本代碼 (HuggingFace_Notebook_t5-base-portuguese-vocab_question_answering_QA_squad_v11_pt.ipynb) 可以在GitHub上找到。

超參數

# do training and evaluation
do_train = True
do_eval= True

# batch
batch_size = 4
gradient_accumulation_steps = 3
per_device_train_batch_size = batch_size
per_device_eval_batch_size = per_device_train_batch_size*16

# LR, wd, epochs
learning_rate = 1e-4
weight_decay = 0.01
num_train_epochs = 10
fp16 = True

# logs
logging_strategy = "steps"
logging_first_step = True 
logging_steps = 3000     # if logging_strategy = "steps"
eval_steps = logging_steps 

# checkpoints
evaluation_strategy = logging_strategy
save_strategy = logging_strategy
save_steps = logging_steps
save_total_limit = 3

# best model
load_best_model_at_end = True
metric_for_best_model = "f1" #"loss"
if metric_for_best_model == "loss":
  greater_is_better = False
else:
  greater_is_better = True  

# evaluation
num_beams = 1

訓練結果

Num examples = 87510
Num Epochs = 10
Instantaneous batch size per device = 4
Total train batch size (w. parallel, distributed & accumulation) = 12
Gradient Accumulation steps = 3
Total optimization steps = 72920
 
Step 	Training Loss  Exact Match	F1
3000 	0.776100	     61.807001  	75.114517
6000 	0.545900	     65.260170  	77.468930
9000 	0.460500	     66.556291  	78.491938
12000	0.393400	     66.821192  	78.745397
15000	0.379800  	   66.603595  	78.815515
18000	0.298100  	   67.578051  	79.287899
21000	0.303100  	   66.991485  	78.979669
24000	0.251600  	   67.275307  	78.929923

27000	0.237500	     66.972564  	79.333612

30000	0.220500 	    66.915799  	79.236574
33000	0.182600	     67.029328  	78.964212
36000	0.190600 	    66.982025  	79.086125

📄 許可證

文檔中未提及許可證相關信息。

📋 模型信息

屬性	詳情
模型類型	針對葡萄牙語SQUaD v1.1數據集微調的T5基礎問答模型
訓練數據	葡萄牙語的SQUAD v1.1數據集
評估指標	F1、精確匹配率、召回率、準確率等