Ptt5 Base Summ
模型概述
該模型專門針對巴西葡萄牙語文本進行優化,能夠生成高質量的抽象摘要,適用於新聞、文章等多種文本類型。
模型特點
多數據集微調
模型在多個高質量葡萄牙語摘要數據集上進行微調,包括RecognaSumm、WikiLingua等。
抽象摘要生成
能夠生成語義連貫的抽象摘要,而不僅僅是提取關鍵句子。
預訓練模型適配
基於PTT5(葡萄牙語T5)預訓練模型,針對摘要任務進行了專門優化。
模型能力
葡萄牙語文本理解
抽象摘要生成
新聞內容概括
長文本壓縮
使用案例
新聞摘要
新聞內容摘要
自動生成新聞文章的簡潔摘要,幫助讀者快速瞭解主要內容。
如示例所示,能夠從長篇新聞中提取關鍵信息生成連貫摘要。
內容概括
長文檔摘要
對技術文檔、報告等長文本生成執行摘要。
🚀 葡萄牙語T5抽象文本摘要模型 (PTT5 Summ)
PTT5 Summ是一個經過微調的PTT5模型,用於對巴西葡萄牙語文本進行抽象文本摘要。該模型在以下數據集上進行了微調:RecognaSumm、WikiLingua、XL-Sum、TeMário和CSTNews。
如需更多信息,請訪問PTT5 Summ倉庫。
✨ 主要特性
- 針對巴西葡萄牙語文本進行抽象文本摘要任務進行了微調。
- 提供了多個基於不同數據集微調的模型版本。
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
💻 使用示例
基礎用法
# Tokenizer
from transformers import T5Tokenizer
# PyTorch model
from transformers import T5Model, T5ForConditionalGeneration
token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
model_name = 'recogna-nlp/ptt5-base-summ'
tokenizer = T5Tokenizer.from_pretrained(token_name )
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)
text = '''
“A tendência de queda da taxa de juros no Brasil é real, é visível”, disse Meirelles, que participou na capital americana de uma série de reuniões e encontros com banqueiros e investidores que aconteceram paralelamente às reuniões do Fundo Monetário Internacional (FMI) e do Banco Mundial (Bird) no fim de semana.
Para o presidente do BC, a atual política econômica do governo e a manutenção da taxa de inflação dentro da meta são fatores que garantem queda na taxa de juros a longo prazo.
“Mas é importante que nós não olhemos para isso apenas no curto prazo. Temos que olhar no médio e longo prazos”, disse Meirelles.
Para ele, o trabalho que o Banco Central tem feito para conter a inflação dentro da meta vai gerar queda gradual da taxa de juros.
BC do ano
Neste domingo, Meirelles participou da cerimônia de entrega do prêmio “Banco Central do ano”, oferecido pela revista The Banker à instituição que preside.
“Este é um sinal importante de reconhecimento do nosso trabalho, de que o Brasil está indo na direção correta”, disse ele.
Segundo Meirelles, o Banco Central do Brasil está sendo percebido como uma instituição comprometida com a meta de inflação.
“Isso tem um ganho importante, na medida em que os agentes formadores de preços começam a apostar que a inflação vai estar na meta, que isso é levado a sério no Brasil”, completou.
O presidente do Banco Central disse ainda que a crise política brasileira não foi um assunto de interesse prioritário dos investidores que encontrou no fim de semana.
'''
inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
summary = tokenizer.decode(summary_ids[0])
print(summary)
#<pad> Meirelles diz que tendência de queda da taxa de juros no Brasil é real e é visível. Presidente do Banco Central do Brasil participou de cerimônia de entrega do prêmio ‘Banco Central do ano’ à instituição que preside.</s>
📚 詳細文檔
可用模型
模型 | 微調使用的數據集 |
---|---|
recogna-nlp/ptt5-base-summ | RecognaSumm |
recogna-nlp/ptt5-base-summ-wikilingua | WikiLingua |
recogna-nlp/ptt5-base-summ-xlsum | XL-Sum |
recogna-nlp/ptt5-base-summ-temario | 第一階段:WikiLingua。第二階段:TeMario |
recogna-nlp/ptt5-base-summ-cstnews | 第一階段:WikiLingua。第二階段:CSTNews |
📄 許可證
本項目採用MIT許可證。
📖 引用
《基於深度學習的巴西葡萄牙語文本抽象文本摘要》(PROPOR 2022)
@aInProceedings{ptt5summ_bracis,
author="Paiola, Pedro H.
and de Rosa, Gustavo H.
and Papa, Jo{\~a}o P.",
editor="Xavier-Junior, Jo{\~a}o Carlos
and Rios, Ricardo Ara{\'u}jo",
title="Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts",
booktitle="BRACIS 2022: Intelligent Systems",
year="2022",
publisher="Springer International Publishing",
address="Cham",
pages="479--493",
isbn="978-3-031-21689-3"}
《RecognaSumm:一種新型巴西摘要數據集》(PROPOR 2024)
@inproceedings{paiola-etal-2024-recognasumm,
title = "{R}ecogna{S}umm: A Novel {B}razilian Summarization Dataset",
author = "Paiola, Pedro Henrique and
Garcia, Gabriel Lino and
Jodas, Danilo Samuel and
Correia, Jo{\~a}o Vitor Mariano and
Sugi, Luis Afonso and
Papa, Jo{\~a}o Paulo",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Lingustics",
url = "https://aclanthology.org/2024.propor-1.63",
pages = "575--579",
}
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98