T5 Portuguese Small Summarization
Google T5-smallをファインチューニングしたポルトガル語要約生成モデルで、ポルトガル語テキスト要約タスクに最適化
ダウンロード数 158
リリース時間 : 3/16/2024
モデル概要
このモデルはポルトガル語テキストの要約生成タスク専用で、google-t5/t5-smallアーキテクチャをファインチューニングしたバージョンです。小規模モデルですが、ポルトガル語要約タスクで良好な性能を発揮し、時折アクセントの誤りが発生する可能性があります。
モデル特徴
ポルトガル語最適化
ポルトガル語テキストに特化してファインチューニングされ、要約生成能力を最適化
軽量モデル
T5-smallアーキテクチャベースで、リソースが限られた環境での展開に適している
要約生成
長文からキー情報を抽出し簡潔な要約を生成可能
モデル能力
テキスト要約生成
ポルトガル語テキスト処理
テキスト圧縮
使用事例
ニュース要約
政治ニュース要約
政治ニュースの長文から主要な出来事や結果を抽出
例が示す通り、トランプ氏が予備選挙で勝利したなどのキー情報を正確に抽出可能
医療テキスト処理
医学概念要約
医学的記述から核心概念を抽出
例が示す通り、身体醜形障害の核心的特徴を正確に要約可能
🚀 t5-portuguese-small-summarization
このモデルは、特定のタスクにおけるポルトガル語モデルのニーズを満たすことを目的としています。要約タスクにおいて良好な性能を発揮します。ただし、モデルが小規模なため、単語のアクセントに関するエラーが時々発生することがあります。
🚀 クイックスタート
このセクションでは、モデルの使用方法を説明します。
!pip install transformers
from transformers import pipeline
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")
prompt =f"""
sumarize: Na segunda disputa estadual para escolher o candidato do partido republicano para as eleições de novembro nos Estados Unidos, o ex-presidente Donald Trump teve mais uma vitória. Ele venceu as primárias em New Hampshire, que ocorreram na terça-feira (23/01). Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto em sua vitória na primeira prévia do calendário eleitoral americano, em Iowa. Naquele Estado, Trump registrou 51% dos votos e vantagem de 30 pontos sobre o segundo colocado, o governador da Flórida, Ron DeSantis. No domingo (21/1), DeSantis anunciou sua desistência da corrida presidencial de 2024 e manifestou apoio a Trump. O movimento deixou Nikki Haley, ex-embaixadora dos Estados Unidos nas Nações Unidas, como a única rival significativa de Trump no partido.
"""
output = summarization(prompt)
#Trump vence as primárias em New Hampshire, que ocorreram na terça-feira (23/01).
#Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto ao segundo colocado, governador da Flórida, Ron DeSantis.
✨ 主な機能
- ポルトガル語の文章の要約タスクに特化したモデルです。
- 特定のハイパーパラメータを用いて学習され、良好な性能を発揮します。
📦 インストール
モデルを使用するには、以下のコマンドでtransformers
ライブラリをインストールします。
!pip install transformers
💻 使用例
基本的な使用法
!pip install transformers
from transformers import pipeline
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")
prompt =f"""
sumarize: Na segunda disputa estadual para escolher o candidato do partido republicano para as eleições de novembro nos Estados Unidos, o ex-presidente Donald Trump teve mais uma vitória. Ele venceu as primárias em New Hampshire, que ocorreram na terça-feira (23/01). Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto em sua vitória na primeira prévia do calendário eleitoral americano, em Iowa. Naquele Estado, Trump registrou 51% dos votos e vantagem de 30 pontos sobre o segundo colocado, o governador da Flórida, Ron DeSantis. No domingo (21/1), DeSantis anunciou sua desistência da corrida presidencial de 2024 e manifestou apoio a Trump. O movimento deixou Nikki Haley, ex-embaixadora dos Estados Unidos nas Nações Unidas, como a única rival significativa de Trump no partido.
"""
output = summarization(prompt)
#Trump vence as primárias em New Hampshire, que ocorreram na terça-feira (23/01).
#Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto ao segundo colocado, governador da Flórida, Ron DeSantis.
📚 ドキュメント
学習ハイパーパラメータ
学習時に使用されたハイパーパラメータは以下の通りです。
ハイパーパラメータ | 値 |
---|---|
learning_rate | 2e-05 |
train_batch_size | 6 |
eval_batch_size | 6 |
seed | 42 |
gradient_accumulation_steps | 4 |
total_train_batch_size | 24 |
optimizer | Adam with betas=(0.9,0.999) and epsilon=1e-08 |
lr_scheduler_type | linear |
num_epochs | 25 |
mixed_precision_training | Native AMP |
学習結果
学習損失 | エポック | ステップ | 検証損失 | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
---|---|---|---|---|---|---|---|---|
2.092 | 0.6 | 500 | 1.9551 | 14.6613 | 5.2159 | 12.5685 | 13.4544 | 18.968 |
2.092 | 0.72 | 600 | 1.9508 | 14.6862 | 5.2585 | 12.6345 | 13.5299 | 18.968 |
2.092 | 0.84 | 700 | 1.9473 | 14.7323 | 5.1636 | 12.6962 | 13.5118 | 18.968 |
2.092 | 0.96 | 800 | 1.9488 | 14.7104 | 5.1587 | 12.7019 | 13.5439 | 18.968 |
2.092 | 1.08 | 900 | 1.9397 | 14.8448 | 5.2826 | 12.7924 | 13.6464 | 18.968 |
2.077 | 1.2 | 1000 | 1.9373 | 14.9495 | 5.3975 | 12.8935 | 13.7491 | 18.968 |
2.077 | 1.32 | 1100 | 1.9372 | 14.93 | 5.4048 | 12.8809 | 13.7012 | 18.968 |
2.077 | 1.44 | 1200 | 1.9311 | 14.8196 | 5.2564 | 12.8279 | 13.6688 | 18.968 |
2.077 | 1.56 | 1300 | 1.9311 | 14.8757 | 5.2282 | 12.8286 | 13.7152 | 18.968 |
2.077 | 1.68 | 1400 | 1.9287 | 14.9308 | 5.3154 | 12.8522 | 13.7326 | 18.968 |
2.06 | 1.8 | 1500 | 1.9268 | 14.8923 | 5.2594 | 12.8387 | 13.6839 | 18.968 |
2.06 | 1.92 | 1600 | 1.9256 | 15.085 | 5.2911 | 12.9424 | 13.8375 | 18.968 |
2.06 | 2.04 | 1700 | 1.9245 | 14.9127 | 5.3024 | 12.8339 | 13.6987 | 18.968 |
2.06 | 2.16 | 1800 | 1.9197 | 15.0974 | 5.2812 | 12.9218 | 13.8758 | 18.968 |
2.06 | 2.28 | 1900 | 1.9172 | 15.0564 | 5.2437 | 12.8736 | 13.8318 | 18.968 |
2.0474 | 2.4 | 2000 | 1.9149 | 14.9414 | 5.1408 | 12.8381 | 13.7028 | 18.968 |
2.0474 | 2.52 | 2100 | 1.9149 | 15.0211 | 5.2195 | 12.954 | 13.809 | 18.968 |
2.0474 | 2.64 | 2200 | 1.9113 | 15.0689 | 5.2702 | 12.9338 | 13.8276 | 18.968 |
2.0474 | 2.76 | 2300 | 1.9129 | 15.134 | 5.2675 | 13.0113 | 13.9106 | 18.968 |
2.0474 | 2.88 | 2400 | 1.9103 | 15.1097 | 5.276 | 12.9856 | 13.8559 | 18.968 |
2.04 | 3.0 | 2500 | 1.9062 | 15.1413 | 5.2281 | 12.9537 | 13.8494 | 18.968 |
2.04 | 3.12 | 2600 | 1.9070 | 14.9792 | 5.2091 | 12.8586 | 13.695 | 18.968 |
2.04 | 3.24 | 2700 | 1.9066 | 14.9506 | 5.2238 | 12.8265 | 13.6925 | 18.968 |
2.04 | 3.36 | 2800 | 1.9063 | 15.053 | 5.2235 | 12.8833 | 13.7711 | 18.968 |
2.04 | 3.48 | 2900 | 1.9064 | 14.9386 | 5.1363 | 12.7915 | 13.688 | 18.968 |
2.0273 | 3.6 | 3000 | 1.9053 | 15.0901 | 5.2518 | 12.9063 | 13.8338 | 18.968 |
2.0273 | 3.72 | 3100 | 1.9059 | 15.0692 | 5.2665 | 12.932 | 13.8394 | 18.968 |
2.0273 | 3.84 | 3200 | 1.9021 | 15.0768 | 5.3179 | 12.9916 | 13.8653 | 18.968 |
2.0273 | 3.96 | 3300 | 1.9024 | 15.1808 | 5.3312 | 13.0143 | 13.9269 | 18.968 |
2.0273 | 4.08 | 3400 | 1.8981 | 15.0905 | 5.2769 | 12.9551 | 13.8666 | 18.968 |
2.0291 | 4.2 | 3500 | 1.9007 | 15.0453 | 5.3159 | 12.9429 | 13.824 | 18.968 |
2.0291 | 4.32 | 3600 | 1.9017 | 15.0403 | 5.3474 | 12.9625 | 13.8437 | 18.968 |
2.0291 | 4.44 | 3700 | 1.9005 | 15.0456 | 5.3468 | 12.9521 | 13.8413 | 18.968 |
2.0291 | 4.56 | 3800 | 1.8991 | 15.0501 | 5.3539 | 12.9597 | 13.8408 | 18.968 |
2.0291 | 4.68 | 3900 | 1.8998 | 15.1219 | 5.3599 | 12.9936 | 13.9013 | 18.968 |
2.0193 | 4.8 | 4000 | 1.9004 | 15.0831 | 5.329 | 12.9697 | 13.8762 | 18.968 |
2.0193 | 4.92 | 4100 | 1.8997 | 15.0817 | 5.3292 | 12.958 | 13.8768 | 18.968 |
フレームワークバージョン
- Transformers 4.38.2
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.2
🔧 技術詳細
このモデルはgoogle-t5/t5-small
をベースに微調整されたモデルです。特定のハイパーパラメータを用いて学習され、ポルトガル語の文章の要約タスクに特化しています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
コメント
アイデア、助け、報告など、いかなるものも大歓迎です。 メール: rhaymisoncristian@gmail.com
Bart Large Cnn
MIT
英語コーパスで事前学習されたBARTモデルで、CNNデイリーメールデータセットに特化してファインチューニングされ、テキスト要約タスクに適しています。
テキスト生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
ParrotはT5ベースの言い換えフレームワークで、自然言語理解(NLU)モデルのトレーニング加速のために設計され、高品質な言い換えによるデータ拡張を実現します。
テキスト生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBARTはBARTモデルの蒸留バージョンで、テキスト要約タスクに特化して最適化されており、高い性能を維持しながら推論速度を大幅に向上させています。
テキスト生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
T5アーキテクチャに基づくモデルで、要約テキストから原子声明を抽出するために特別に設計されており、要約の事実性評価プロセスの重要なコンポーネントです。
テキスト生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEvalは自然言語生成タスクの自動評価のための統一された多次元評価器で、複数の解釈可能な次元での評価をサポートします。
テキスト生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
PEGASUSアーキテクチャを微調整したテキスト再述モデルで、意味は同じだが表現が異なる文章を生成できます。
テキスト生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
これはT5アーキテクチャに基づく韓国語テキスト要約モデルで、韓国語テキスト要約タスク用に設計され、paust/pko-t5-baseモデルを微調整して複数の韓国語データセットで訓練されました。
テキスト生成
Transformers 韓国語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUSは、Transformerに基づく事前学習モデルで、抽象的なテキスト要約タスクに特化しています。
テキスト生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
BART-largeアーキテクチャに基づく対話要約モデルで、SAMSumコーパス用に微調整され、対話要約の生成に適しています。
テキスト生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
KoBARTアーキテクチャに基づく韓国語テキスト要約モデルで、韓国語ニュース記事の簡潔な要約を生成できます。
テキスト生成
Transformers 韓国語

K
gogamza
119.18k
12
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98