🚀 葡萄牙語T5抽象文本摘要模型 (PTT5 Summ)
PTT5 Summ是一個經過微調的PTT5模型,用於對巴西葡萄牙語文本進行抽象文本摘要。該模型在以下數據集上進行了微調:RecognaSumm、WikiLingua、XL-Sum、TeMário和CSTNews。
如需更多信息,請訪問PTT5 Summ倉庫。
✨ 主要特性
- 針對巴西葡萄牙語文本進行抽象文本摘要任務進行了微調。
- 提供了多個基於不同數據集微調的模型版本。
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
💻 使用示例
基礎用法
from transformers import T5Tokenizer
from transformers import T5Model, T5ForConditionalGeneration
token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
model_name = 'recogna-nlp/ptt5-base-summ'
tokenizer = T5Tokenizer.from_pretrained(token_name )
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)
text = '''
“A tendência de queda da taxa de juros no Brasil é real, é visível”, disse Meirelles, que participou na capital americana de uma série de reuniões e encontros com banqueiros e investidores que aconteceram paralelamente às reuniões do Fundo Monetário Internacional (FMI) e do Banco Mundial (Bird) no fim de semana.
Para o presidente do BC, a atual política econômica do governo e a manutenção da taxa de inflação dentro da meta são fatores que garantem queda na taxa de juros a longo prazo.
“Mas é importante que nós não olhemos para isso apenas no curto prazo. Temos que olhar no médio e longo prazos”, disse Meirelles.
Para ele, o trabalho que o Banco Central tem feito para conter a inflação dentro da meta vai gerar queda gradual da taxa de juros.
BC do ano
Neste domingo, Meirelles participou da cerimônia de entrega do prêmio “Banco Central do ano”, oferecido pela revista The Banker à instituição que preside.
“Este é um sinal importante de reconhecimento do nosso trabalho, de que o Brasil está indo na direção correta”, disse ele.
Segundo Meirelles, o Banco Central do Brasil está sendo percebido como uma instituição comprometida com a meta de inflação.
“Isso tem um ganho importante, na medida em que os agentes formadores de preços começam a apostar que a inflação vai estar na meta, que isso é levado a sério no Brasil”, completou.
O presidente do Banco Central disse ainda que a crise política brasileira não foi um assunto de interesse prioritário dos investidores que encontrou no fim de semana.
'''
inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
summary = tokenizer.decode(summary_ids[0])
print(summary)
📚 詳細文檔
可用模型
📄 許可證
本項目採用MIT許可證。
📖 引用
《基於深度學習的巴西葡萄牙語文本抽象文本摘要》(PROPOR 2022)
@aInProceedings{ptt5summ_bracis,
author="Paiola, Pedro H.
and de Rosa, Gustavo H.
and Papa, Jo{\~a}o P.",
editor="Xavier-Junior, Jo{\~a}o Carlos
and Rios, Ricardo Ara{\'u}jo",
title="Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts",
booktitle="BRACIS 2022: Intelligent Systems",
year="2022",
publisher="Springer International Publishing",
address="Cham",
pages="479--493",
isbn="978-3-031-21689-3"}
《RecognaSumm:一種新型巴西摘要數據集》(PROPOR 2024)
@inproceedings{paiola-etal-2024-recognasumm,
title = "{R}ecogna{S}umm: A Novel {B}razilian Summarization Dataset",
author = "Paiola, Pedro Henrique and
Garcia, Gabriel Lino and
Jodas, Danilo Samuel and
Correia, Jo{\~a}o Vitor Mariano and
Sugi, Luis Afonso and
Papa, Jo{\~a}o Paulo",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Lingustics",
url = "https://aclanthology.org/2024.propor-1.63",
pages = "575--579",
}