Ptt5 Base Summ
PTT5をファインチューニングしたブラジルポルトガル語の抽象要約生成モデルで、ニュースなどのテキストから簡潔な要約を生成できます。
ダウンロード数 853
リリース時間 : 12/22/2023
モデル概要
このモデルはブラジルポルトガル語テキストに特化して最適化されており、ニュースや記事など様々なテキストタイプに対して高品質な抽象要約を生成できます。
モデル特徴
マルチデータセットファインチューニング
RecognaSumm、WikiLinguaなど複数の高品質ポルトガル語要約データセットでファインチューニングされています。
抽象要約生成
単なるキーセンテンスの抽出ではなく、意味的に一貫性のある抽象要約を生成できます。
事前学習モデルの適応
PTT5(ポルトガル語T5)事前学習モデルを基に、要約タスク向けに特別に最適化されています。
モデル能力
ポルトガル語テキスト理解
抽象要約生成
ニュース内容の要約
長文圧縮
使用事例
ニュース要約
ニュース内容要約
ニュース記事の簡潔な要約を自動生成し、読者が主要な内容を素早く理解できるようにします。
例が示すように、長文ニュースからキー情報を抽出して一貫性のある要約を生成できます。
内容要約
長文書要約
技術文書やレポートなどの長文に対して実行可能な要約を生成します。
license: mit tags:
- t5
- pytorch
- pt
- pt-br
- summarization
- abstractive summarization inference: parameters: min_length: 32 max_length: 256 top_k: 5 widget:
- text: >- Os americanos não devem se preocupar com a guerra nuclear, disse o presidente dos EUA, Joe Biden, nesta segunda-feira (28). A fala vem um dia depois que o presidente russo, Vladimir Putin, colocou as equipes nucleares da Rússia em alerta máximo. Os Estados Unidos disseram nesta segunda que não detectaram nenhuma mudança "concreta" na posição nuclear da Rússia. "Ainda estamos monitorando e acompanhando a questão muito de perto", disse um alto funcionário do Pentágono a repórteres, um dia após o anúncio do presidente russo. "Não acredito que vimos nada de concreto como resultado de sua decisão. Pelo menos não por enquanto", acrescentou. O funcionário reconheceu que era "difícil saber o que estava por trás da ordem de Putin". Mas "o simples fato de mencionar" ou "ameaçar" com um "uso de forças nucleares" é "inútil e representa uma escalada significativa" na invasão à sua vizinha Ucrânia, lamentou, reafirmando que a Otan "nunca" ameaçou a Rússia. Leia também Por que os Estados Unidos não entram na guerra contra a Rússia? Putin pode apertar o botão nuclear? Veja o que mais você precisa saber sobre a guerra na Ucrânia No domingo, Belarus, aliada da Rússia, realizou um referendo que elimina a obrigação de que a ex-república soviética permaneça uma "zona livre de armas nucleares". As potências ocidentais denunciaram essa medida, que acreditam permitir que Moscou transfira armas nucleares para Belarus, outro vizinho da Ucrânia e que também faz fronteira com vários países da Aliança Atlântica. Quando perguntado se movimentos desse tipo foram observados, o funcionário do Pentágono respondeu que "não". Ele também assegurou que, no momento, não há evidências de que haja soldados belarussos na Ucrânia como reforço das forças russas. "Até onde sabemos, as forças que entraram na Ucrânia são todas russas", disse ele, acrescentando que Moscou levou para o território ucraniano "quase 75%" das forças de combate concentradas na fronteira nos últimos meses. EUA fecham embaixada em Belarus Os EUA fecharam sua embaixada em Minsk e permitiram que funcionários não emergenciais e familiares deixassem sua embaixada em Moscou nesta segunda-feira, enquanto a Rússia avançava com a invasão da Ucrânia pelo quinto dia. "Tomamos essas medidas devido a questões de segurança decorrentes do ataque não provocado e injustificado das forças militares russas na Ucrânia", disse o secretário de Estado Antony Blinken. example_title: Notícia 1
- text: >- Por Sam Nussey, da Reuters O negócio de games da Sony mira novos investimentos para reforçar o impulso em PCs e dispositivos móveis, disse um executivo sênior do grupo, à medida que a fabricante do PlayStation 5 compete por talentos com rivais endinheirados e em meio ao aumento de transações no setor. “Mais investimentos em áreas que fortalecerão a expansão para PC, dispositivos móveis e serviços ao vivo, essa é definitivamente uma possibilidade para nós”, disse Hermen Hulst, chefe da PlayStation Studios, em entrevista à Reuters, sem fornecer mais detalhes. Leia Mais A Sony, cujos estúdios são conhecidos por jogos de console ‘single player’ (para um jogador) como “Spider-Man” e “God of War”, delineou planos ambiciosos de lançar títulos para PC e dispositivos móveis e oferecer games de serviço ao vivo (‘live service games’), que fornecem contínua atualização. A mudança radical se reflete em seus recentes movimentos no mercado, incluindo a aquisição da Bungie, o estúdio por trás da franquia multijogador “Destiny”, por 3,6 bilhões de dólares. A Sony opera o estúdio fora de sua rede PlayStation Studios. Outros investimentos incluem a compra de uma participação minoritária na desenvolvedora japonesa FromSoftware, cujo jogo de ação no formato RPG “Elden Ring” vendeu mais de 16,6 milhões de unidades. A Sony também está produzindo um número crescente de adaptações de games, como o filme “Uncharted” neste ano, que arrecadou mais de 400 milhões de dólares em todo o mundo, e uma série de TV baseada na franquia “The Last of Us”, de seu estúdio Naughty Dog, que será lançada na HBO no próximo ano. Dado o escopo da transformação visada pelo negócio de games da Sony, os analistas esperam mais aquisições do grupo. “Acho que eles ainda vão adicionar estúdios”, disse Serkan Toto, fundador da consultoria Kantan Games. A força da rede de estúdios do PlayStation atraiu elogios como um diferencial importante em relação à fabricante do Xbox, a Microsoft, que está tentando comprar a Activision Blizzard em uma operação de 69 bilhões de dólares. O chefe de games da Sony, Jim Ryan, chegou a levantar objeções à operação diante do potencial impacto do mega-negócio nos usuários do PlayStation. “Se a Sony conseguir replicar o que fez com experiências single player, mas (com) experiências multijogador em diferentes plataformas, no PC, em consoles e talvez até nos celulares” será impossível prever o resultado, disse Toto, da Kantan Games, apontando para o sucesso de jogos online como Fortnite, da Epic Games. O impulso da Sony para outras plataformas ocorre enquanto o grupo luta para produzir unidades suficientes do PlayStation 5 devido a problemas na cadeia de suprimentos. Os estúdios internos da Sony também estão desenvolvendo títulos para a próxima geração dos óculos de realidade virtual PlayStation VR2, que devem ser lançados no início do próximo ano. Enquanto “Horizon Forbidden West”, lançado em fevereiro, é “um mundo aberto e isso não é necessariamente muito adequado para um jogo PSVR2”, a Sony está projetando títulos “sob medida” para o sistema, como “Horizon Call of the Mountain”, afirmou Hulst. example_title: Notícia 2 datasets:
- recogna-nlp/recognasumm language:
- pt pipeline_tag: summarization
Portuguese T5 for Abstractive Summarization (PTT5 Summ)
Introduction
PTT5 Summ is a fine-tuned PTT5 model to perform Abstractive Summarization in Brazilian Portuguese texts. This model was fine-tuned on the datasets: RecognaSumm, WikiLingua, XL-Sum, TeMário and CSTNews.
For further information, please go to PTT5 Summ repository.
Available models
Model | Dataset used in fine-tuning |
---|---|
recogna-nlp/ptt5-base-summ | RecognaSumm |
recogna-nlp/ptt5-base-summ-wikilingua | WikiLingua |
recogna-nlp/ptt5-base-summ-xlsum | XL-Sum |
recogna-nlp/ptt5-base-summ-temario | 1st phase: WikiLingua. 2nd phase: TeMario |
recogna-nlp/ptt5-base-summ-cstnews | 1st phase: WikiLingua. 2nd phase: CSTNews |
Usage example
# Tokenizer
from transformers import T5Tokenizer
# PyTorch model
from transformers import T5Model, T5ForConditionalGeneration
token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
model_name = 'recogna-nlp/ptt5-base-summ'
tokenizer = T5Tokenizer.from_pretrained(token_name )
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)
text = '''
“A tendência de queda da taxa de juros no Brasil é real, é visível”, disse Meirelles, que participou na capital americana de uma série de reuniões e encontros com banqueiros e investidores que aconteceram paralelamente às reuniões do Fundo Monetário Internacional (FMI) e do Banco Mundial (Bird) no fim de semana.
Para o presidente do BC, a atual política econômica do governo e a manutenção da taxa de inflação dentro da meta são fatores que garantem queda na taxa de juros a longo prazo.
“Mas é importante que nós não olhemos para isso apenas no curto prazo. Temos que olhar no médio e longo prazos”, disse Meirelles.
Para ele, o trabalho que o Banco Central tem feito para conter a inflação dentro da meta vai gerar queda gradual da taxa de juros.
BC do ano
Neste domingo, Meirelles participou da cerimônia de entrega do prêmio “Banco Central do ano”, oferecido pela revista The Banker à instituição que preside.
“Este é um sinal importante de reconhecimento do nosso trabalho, de que o Brasil está indo na direção correta”, disse ele.
Segundo Meirelles, o Banco Central do Brasil está sendo percebido como uma instituição comprometida com a meta de inflação.
“Isso tem um ganho importante, na medida em que os agentes formadores de preços começam a apostar que a inflação vai estar na meta, que isso é levado a sério no Brasil”, completou.
O presidente do Banco Central disse ainda que a crise política brasileira não foi um assunto de interesse prioritário dos investidores que encontrou no fim de semana.
'''
inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
summary = tokenizer.decode(summary_ids[0])
print(summary)
#<pad> Meirelles diz que tendência de queda da taxa de juros no Brasil é real e é visível. Presidente do Banco Central do Brasil participou de cerimônia de entrega do prêmio ‘Banco Central do ano’ à instituição que preside.</s>
Citation
Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts (PROPOR 2022)
@aInProceedings{ptt5summ_bracis,
author="Paiola, Pedro H.
and de Rosa, Gustavo H.
and Papa, Jo{\~a}o P.",
editor="Xavier-Junior, Jo{\~a}o Carlos
and Rios, Ricardo Ara{\'u}jo",
title="Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts",
booktitle="BRACIS 2022: Intelligent Systems",
year="2022",
publisher="Springer International Publishing",
address="Cham",
pages="479--493",
isbn="978-3-031-21689-3"}
RecognaSumm: A Novel Brazilian Summarization Dataset (PROPOR 2024)
@inproceedings{paiola-etal-2024-recognasumm,
title = "{R}ecogna{S}umm: A Novel {B}razilian Summarization Dataset",
author = "Paiola, Pedro Henrique and
Garcia, Gabriel Lino and
Jodas, Danilo Samuel and
Correia, Jo{\~a}o Vitor Mariano and
Sugi, Luis Afonso and
Papa, Jo{\~a}o Paulo",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Lingustics",
url = "https://aclanthology.org/2024.propor-1.63",
pages = "575--579",
}
Bart Large Cnn
MIT
英語コーパスで事前学習されたBARTモデルで、CNNデイリーメールデータセットに特化してファインチューニングされ、テキスト要約タスクに適しています。
テキスト生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
ParrotはT5ベースの言い換えフレームワークで、自然言語理解(NLU)モデルのトレーニング加速のために設計され、高品質な言い換えによるデータ拡張を実現します。
テキスト生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBARTはBARTモデルの蒸留バージョンで、テキスト要約タスクに特化して最適化されており、高い性能を維持しながら推論速度を大幅に向上させています。
テキスト生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
T5アーキテクチャに基づくモデルで、要約テキストから原子声明を抽出するために特別に設計されており、要約の事実性評価プロセスの重要なコンポーネントです。
テキスト生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEvalは自然言語生成タスクの自動評価のための統一された多次元評価器で、複数の解釈可能な次元での評価をサポートします。
テキスト生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
PEGASUSアーキテクチャを微調整したテキスト再述モデルで、意味は同じだが表現が異なる文章を生成できます。
テキスト生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
これはT5アーキテクチャに基づく韓国語テキスト要約モデルで、韓国語テキスト要約タスク用に設計され、paust/pko-t5-baseモデルを微調整して複数の韓国語データセットで訓練されました。
テキスト生成
Transformers 韓国語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUSは、Transformerに基づく事前学習モデルで、抽象的なテキスト要約タスクに特化しています。
テキスト生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
BART-largeアーキテクチャに基づく対話要約モデルで、SAMSumコーパス用に微調整され、対話要約の生成に適しています。
テキスト生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
KoBARTアーキテクチャに基づく韓国語テキスト要約モデルで、韓国語ニュース記事の簡潔な要約を生成できます。
テキスト生成
Transformers 韓国語

K
gogamza
119.18k
12
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98