Ptt5 Base Summ
模型简介
该模型专门针对巴西葡萄牙语文本进行优化,能够生成高质量的抽象摘要,适用于新闻、文章等多种文本类型。
模型特点
多数据集微调
模型在多个高质量葡萄牙语摘要数据集上进行微调,包括RecognaSumm、WikiLingua等。
抽象摘要生成
能够生成语义连贯的抽象摘要,而不仅仅是提取关键句子。
预训练模型适配
基于PTT5(葡萄牙语T5)预训练模型,针对摘要任务进行了专门优化。
模型能力
葡萄牙语文本理解
抽象摘要生成
新闻内容概括
长文本压缩
使用案例
新闻摘要
新闻内容摘要
自动生成新闻文章的简洁摘要,帮助读者快速了解主要内容。
如示例所示,能够从长篇新闻中提取关键信息生成连贯摘要。
内容概括
长文档摘要
对技术文档、报告等长文本生成执行摘要。
🚀 葡萄牙语T5抽象文本摘要模型 (PTT5 Summ)
PTT5 Summ是一个经过微调的PTT5模型,用于对巴西葡萄牙语文本进行抽象文本摘要。该模型在以下数据集上进行了微调:RecognaSumm、WikiLingua、XL-Sum、TeMário和CSTNews。
如需更多信息,请访问PTT5 Summ仓库。
✨ 主要特性
- 针对巴西葡萄牙语文本进行抽象文本摘要任务进行了微调。
- 提供了多个基于不同数据集微调的模型版本。
📦 安装指南
文档未提供安装步骤,暂不展示。
💻 使用示例
基础用法
# Tokenizer
from transformers import T5Tokenizer
# PyTorch model
from transformers import T5Model, T5ForConditionalGeneration
token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
model_name = 'recogna-nlp/ptt5-base-summ'
tokenizer = T5Tokenizer.from_pretrained(token_name )
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)
text = '''
“A tendência de queda da taxa de juros no Brasil é real, é visível”, disse Meirelles, que participou na capital americana de uma série de reuniões e encontros com banqueiros e investidores que aconteceram paralelamente às reuniões do Fundo Monetário Internacional (FMI) e do Banco Mundial (Bird) no fim de semana.
Para o presidente do BC, a atual política econômica do governo e a manutenção da taxa de inflação dentro da meta são fatores que garantem queda na taxa de juros a longo prazo.
“Mas é importante que nós não olhemos para isso apenas no curto prazo. Temos que olhar no médio e longo prazos”, disse Meirelles.
Para ele, o trabalho que o Banco Central tem feito para conter a inflação dentro da meta vai gerar queda gradual da taxa de juros.
BC do ano
Neste domingo, Meirelles participou da cerimônia de entrega do prêmio “Banco Central do ano”, oferecido pela revista The Banker à instituição que preside.
“Este é um sinal importante de reconhecimento do nosso trabalho, de que o Brasil está indo na direção correta”, disse ele.
Segundo Meirelles, o Banco Central do Brasil está sendo percebido como uma instituição comprometida com a meta de inflação.
“Isso tem um ganho importante, na medida em que os agentes formadores de preços começam a apostar que a inflação vai estar na meta, que isso é levado a sério no Brasil”, completou.
O presidente do Banco Central disse ainda que a crise política brasileira não foi um assunto de interesse prioritário dos investidores que encontrou no fim de semana.
'''
inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
summary = tokenizer.decode(summary_ids[0])
print(summary)
#<pad> Meirelles diz que tendência de queda da taxa de juros no Brasil é real e é visível. Presidente do Banco Central do Brasil participou de cerimônia de entrega do prêmio ‘Banco Central do ano’ à instituição que preside.</s>
📚 详细文档
可用模型
模型 | 微调使用的数据集 |
---|---|
recogna-nlp/ptt5-base-summ | RecognaSumm |
recogna-nlp/ptt5-base-summ-wikilingua | WikiLingua |
recogna-nlp/ptt5-base-summ-xlsum | XL-Sum |
recogna-nlp/ptt5-base-summ-temario | 第一阶段:WikiLingua。第二阶段:TeMario |
recogna-nlp/ptt5-base-summ-cstnews | 第一阶段:WikiLingua。第二阶段:CSTNews |
📄 许可证
本项目采用MIT许可证。
📖 引用
《基于深度学习的巴西葡萄牙语文本抽象文本摘要》(PROPOR 2022)
@aInProceedings{ptt5summ_bracis,
author="Paiola, Pedro H.
and de Rosa, Gustavo H.
and Papa, Jo{\~a}o P.",
editor="Xavier-Junior, Jo{\~a}o Carlos
and Rios, Ricardo Ara{\'u}jo",
title="Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts",
booktitle="BRACIS 2022: Intelligent Systems",
year="2022",
publisher="Springer International Publishing",
address="Cham",
pages="479--493",
isbn="978-3-031-21689-3"}
《RecognaSumm:一种新型巴西摘要数据集》(PROPOR 2024)
@inproceedings{paiola-etal-2024-recognasumm,
title = "{R}ecogna{S}umm: A Novel {B}razilian Summarization Dataset",
author = "Paiola, Pedro Henrique and
Garcia, Gabriel Lino and
Jodas, Danilo Samuel and
Correia, Jo{\~a}o Vitor Mariano and
Sugi, Luis Afonso and
Papa, Jo{\~a}o Paulo",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Lingustics",
url = "https://aclanthology.org/2024.propor-1.63",
pages = "575--579",
}
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98