ptt5-base-summ-temario开源模型 - 免费部署生成巴西葡萄牙语文本摘要

首页

Ptt5 Base Summ Temario

由 recogna-nlp 开发

基于PTT5微调的模型，用于生成巴西葡萄牙语文本的抽象摘要。

文本生成

Transformers

其他开源协议:MIT #巴西葡萄牙语摘要 #多数据集微调 #T5架构优化

下载量 159

发布时间 : 8/29/2022

模型简介

PTT5 Summ是基于PTT5微调的模型，专门用于生成巴西葡萄牙语文本的抽象摘要。该模型在多个葡萄牙语数据集上进行了微调，包括RecognaSumm、WikiLingua、XL-Sum、TeMário和CSTNews。

模型特点

多数据集微调

模型在多个葡萄牙语数据集上进行了微调，包括RecognaSumm、WikiLingua、XL-Sum、TeMário和CSTNews，提高了摘要生成的多样性和准确性。

抽象摘要生成

能够生成抽象摘要，而不仅仅是提取式摘要，可以更好地理解和概括原文内容。

推理参数优化

支持多种推理参数设置，如最小长度、最大长度和前k候选，以适应不同的摘要需求。

模型能力

文本摘要生成

抽象摘要生成

葡萄牙语文本处理

使用案例

新闻摘要

新闻摘要生成

将长篇新闻文章自动生成为简洁的摘要，便于快速浏览主要内容。

生成符合要求的新闻摘要，如示例中的新闻1和新闻2摘要。

文档摘要

技术文档摘要

自动生成技术文档的摘要，帮助用户快速理解文档核心内容。

🚀 葡萄牙语T5抽象文本摘要模型（PTT5 Summ）

PTT5 Summ是一个经过微调的PTT5模型，用于对巴西葡萄牙语文本进行抽象文本摘要。该模型在以下数据集上进行了微调：RecognaSumm、WikiLingua、XL-Sum、TeMário和CSTNews。

更多信息，请访问PTT5 Summ仓库。

✨ 主要特性

专门针对巴西葡萄牙语文本进行抽象文本摘要。
在多个数据集上进行微调，提升摘要效果。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

基础用法

# Tokenizer 
from transformers import T5Tokenizer

# PyTorch model 
from transformers import T5Model, T5ForConditionalGeneration

token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
model_name = 'phpaiola/ptt5-base-summ-xlsum'

tokenizer = T5Tokenizer.from_pretrained(token_name )
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)

text = '''
“A tendência de queda da taxa de juros no Brasil é real, é visível”, disse Meirelles, que participou na capital americana de uma série de reuniões e encontros com banqueiros e investidores que aconteceram paralelamente às reuniões do Fundo Monetário Internacional (FMI) e do Banco Mundial (Bird) no fim de semana.
Para o presidente do BC, a atual política econômica do governo e a manutenção da taxa de inflação dentro da meta são fatores que garantem queda na taxa de juros a longo prazo.
“Mas é importante que nós não olhemos para isso apenas no curto prazo. Temos que olhar no médio e longo prazos”, disse Meirelles.
Para ele, o trabalho que o Banco Central tem feito para conter a inflação dentro da meta vai gerar queda gradual da taxa de juros.
BC do ano
Neste domingo, Meirelles participou da cerimônia de entrega do prêmio “Banco Central do ano”, oferecido pela revista The Banker à instituição que preside.
“Este é um sinal importante de reconhecimento do nosso trabalho, de que o Brasil está indo na direção correta”, disse ele.
Segundo Meirelles, o Banco Central do Brasil está sendo percebido como uma instituição comprometida com a meta de inflação.
“Isso tem um ganho importante, na medida em que os agentes formadores de preços começam a apostar que a inflação vai estar na meta, que isso é levado a sério no Brasil”, completou.
O presidente do Banco Central disse ainda que a crise política brasileira não foi um assunto de interesse prioritário dos investidores que encontrou no fim de semana.
'''

inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
summary = tokenizer.decode(summary_ids[0])
print(summary)
#<pad> O presidente do Banco Central, Henrique Meirelles, disse neste domingo, em Washington, que a taxa de juros no Brasil é real, mas que o Brasil está indo na direção correta.</s>

📚 详细文档

可用模型

模型	微调使用的数据集
recogna-nlp/ptt5-base-summ	RecognaSumm
recogna-nlp/ptt5-base-summ-wikilingua	WikiLingua
recogna-nlp/ptt5-base-summ-xlsum	XL-Sum
recogna-nlp/ptt5-base-summ-temario	第一阶段：WikiLingua。第二阶段：TeMario
recogna-nlp/ptt5-base-summ-cstnews	第一阶段：WikiLingua。第二阶段：CSTNews

📄 许可证

本项目采用MIT许可证。

📖 引用

@aInProceedings{ptt5summ_bracis,
  author="Paiola, Pedro H.
    and de Rosa, Gustavo H.
    and Papa, Jo{\~a}o P.",
  editor="Xavier-Junior, Jo{\~a}o Carlos
    and Rios, Ricardo Ara{\'u}jo",
  title="Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts",
  booktitle="BRACIS 2022: Intelligent Systems",
  year="2022",
  publisher="Springer International Publishing",
  address="Cham",
  pages="479--493",
  isbn="978-3-031-21689-3"
}