T5 Portuguese Small Summarization
基於Google T5-small微調的葡萄牙語摘要生成模型,針對葡萄牙語文本摘要任務優化
下載量 158
發布時間 : 3/16/2024
模型概述
該模型專門用於葡萄牙語文本的摘要生成任務,是基於google-t5/t5-small架構微調的版本。雖然是小規模模型,但在葡萄牙語摘要任務上表現良好,可能存在偶爾的重音錯誤。
模型特點
葡萄牙語優化
專門針對葡萄牙語文本進行微調,優化了摘要生成能力
輕量級模型
基於T5-small架構,適合資源有限的環境部署
摘要生成
能夠從長文本中提取關鍵信息生成簡潔摘要
模型能力
文本摘要生成
葡萄牙語文本處理
文本壓縮
使用案例
新聞摘要
政治新聞摘要
從政治新聞長文中提取關鍵事件和結果
如示例所示,能準確提取特朗普贏得初選等關鍵信息
醫療文本處理
醫學概念摘要
從醫學描述中提取核心概念
如示例所示,能準確概括軀體變形障礙的核心特徵
🚀 t5-portuguese-small-summarization
該模型旨在滿足葡萄牙語在特定任務上的模型需求,在摘要任務中表現出色。不過,由於模型為小版本,偶爾可能會出現因單詞重音導致的錯誤。
🚀 快速開始
該模型是一個用於文本摘要的模型,基於google-t5/t5-small
進行微調。以下是使用該模型進行摘要生成的基本步驟:
安裝依賴
!pip install transformers
加載模型和分詞器
from transformers import pipeline
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")
定義輸入文本
prompt =f"""
sumarize: Na segunda disputa estadual para escolher o candidato do partido republicano para as eleições de novembro nos Estados Unidos, o ex-presidente Donald Trump teve mais uma vitória. Ele venceu as primárias em New Hampshire, que ocorreram na terça-feira (23/01). Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto em sua vitória na primeira prévia do calendário eleitoral americano, em Iowa. Naquele Estado, Trump registrou 51% dos votos e vantagem de 30 pontos sobre o segundo colocado, o governador da Flórida, Ron DeSantis. No domingo (21/1), DeSantis anunciou sua desistência da corrida presidencial de 2024 e manifestou apoio a Trump. O movimento deixou Nikki Haley, ex-embaixadora dos Estados Unidos nas Nações Unidas, como a única rival significativa de Trump no partido.
"""
生成摘要
output = summarization(prompt)
輸出結果
# Trump vence as primárias em New Hampshire, que ocorreram na terça-feira (23/01).
# Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto ao segundo colocado, governador da Flórida, Ron DeSantis.
✨ 主要特性
- 語言支持:支持葡萄牙語的文本摘要任務。
- 微調基礎:基於
google-t5/t5-small
模型進行微調。 - 評估指標:使用Rouge指標進行評估。
📦 安裝指南
要使用該模型,你需要安裝transformers
庫:
!pip install transformers
💻 使用示例
基礎用法
from transformers import pipeline
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")
prompt = "sumarize: 這裡可以替換為你要摘要的葡萄牙語文本"
output = summarization(prompt)
print(output)
高級用法
在實際應用中,你可以根據需要調整生成摘要的最大長度等參數:
from transformers import pipeline
# 加載模型和分詞器
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")
# 定義輸入文本
prompt = "sumarize: 這裡可以替換為你要摘要的葡萄牙語文本"
# 調整生成摘要的最大長度
output = summarization(prompt, max_new_tokens=256)
print(output)
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 基於google-t5/t5-small 微調的文本摘要模型 |
訓練數據 | recogna-nlp/recognasumm 數據集 |
推理參數
推理時的參數設置如下:
max_new_tokens
: 128
訓練超參數
以下是訓練過程中使用的超參數:
learning_rate
: 2e-05train_batch_size
: 6eval_batch_size
: 6seed
: 42gradient_accumulation_steps
: 4total_train_batch_size
: 24optimizer
: Adam with betas=(0.9,0.999) and epsilon=1e-08lr_scheduler_type
: linearnum_epochs
: 25mixed_precision_training
: Native AMP
訓練結果
訓練損失 | 輪次 | 步數 | 驗證損失 | Rouge1 | Rouge2 | Rougel | Rougelsum | 生成長度 |
---|---|---|---|---|---|---|---|---|
2.092 | 0.6 | 500 | 1.9551 | 14.6613 | 5.2159 | 12.5685 | 13.4544 | 18.968 |
2.092 | 0.72 | 600 | 1.9508 | 14.6862 | 5.2585 | 12.6345 | 13.5299 | 18.968 |
2.092 | 0.84 | 700 | 1.9473 | 14.7323 | 5.1636 | 12.6962 | 13.5118 | 18.968 |
2.092 | 0.96 | 800 | 1.9488 | 14.7104 | 5.1587 | 12.7019 | 13.5439 | 18.968 |
2.092 | 1.08 | 900 | 1.9397 | 14.8448 | 5.2826 | 12.7924 | 13.6464 | 18.968 |
2.077 | 1.2 | 1000 | 1.9373 | 14.9495 | 5.3975 | 12.8935 | 13.7491 | 18.968 |
2.077 | 1.32 | 1100 | 1.9372 | 14.93 | 5.4048 | 12.8809 | 13.7012 | 18.968 |
2.077 | 1.44 | 1200 | 1.9311 | 14.8196 | 5.2564 | 12.8279 | 13.6688 | 18.968 |
2.077 | 1.56 | 1300 | 1.9311 | 14.8757 | 5.2282 | 12.8286 | 13.7152 | 18.968 |
2.077 | 1.68 | 1400 | 1.9287 | 14.9308 | 5.3154 | 12.8522 | 13.7326 | 18.968 |
2.06 | 1.8 | 1500 | 1.9268 | 14.8923 | 5.2594 | 12.8387 | 13.6839 | 18.968 |
2.06 | 1.92 | 1600 | 1.9256 | 15.085 | 5.2911 | 12.9424 | 13.8375 | 18.968 |
2.06 | 2.04 | 1700 | 1.9245 | 14.9127 | 5.3024 | 12.8339 | 13.6987 | 18.968 |
2.06 | 2.16 | 1800 | 1.9197 | 15.0974 | 5.2812 | 12.9218 | 13.8758 | 18.968 |
2.06 | 2.28 | 1900 | 1.9172 | 15.0564 | 5.2437 | 12.8736 | 13.8318 | 18.968 |
2.0474 | 2.4 | 2000 | 1.9149 | 14.9414 | 5.1408 | 12.8381 | 13.7028 | 18.968 |
2.0474 | 2.52 | 2100 | 1.9149 | 15.0211 | 5.2195 | 12.954 | 13.809 | 18.968 |
2.0474 | 2.64 | 2200 | 1.9113 | 15.0689 | 5.2702 | 12.9338 | 13.8276 | 18.968 |
2.0474 | 2.76 | 2300 | 1.9129 | 15.134 | 5.2675 | 13.0113 | 13.9106 | 18.968 |
2.0474 | 2.88 | 2400 | 1.9103 | 15.1097 | 5.276 | 12.9856 | 13.8559 | 18.968 |
2.04 | 3.0 | 2500 | 1.9062 | 15.1413 | 5.2281 | 12.9537 | 13.8494 | 18.968 |
2.04 | 3.12 | 2600 | 1.9070 | 14.9792 | 5.2091 | 12.8586 | 13.695 | 18.968 |
2.04 | 3.24 | 2700 | 1.9066 | 14.9506 | 5.2238 | 12.8265 | 13.6925 | 18.968 |
2.04 | 3.36 | 2800 | 1.9063 | 15.053 | 5.2235 | 12.8833 | 13.7711 | 18.968 |
2.04 | 3.48 | 2900 | 1.9064 | 14.9386 | 5.1363 | 12.7915 | 13.688 | 18.968 |
2.0273 | 3.6 | 3000 | 1.9053 | 15.0901 | 5.2518 | 12.9063 | 13.8338 | 18.968 |
2.0273 | 3.72 | 3100 | 1.9059 | 15.0692 | 5.2665 | 12.932 | 13.8394 | 18.968 |
2.0273 | 3.84 | 3200 | 1.9021 | 15.0768 | 5.3179 | 12.9916 | 13.8653 | 18.968 |
2.0273 | 3.96 | 3300 | 1.9024 | 15.1808 | 5.3312 | 13.0143 | 13.9269 | 18.968 |
2.0273 | 4.08 | 3400 | 1.8981 | 15.0905 | 5.2769 | 12.9551 | 13.8666 | 18.968 |
2.0291 | 4.2 | 3500 | 1.9007 | 15.0453 | 5.3159 | 12.9429 | 13.824 | 18.968 |
2.0291 | 4.32 | 3600 | 1.9017 | 15.0403 | 5.3474 | 12.9625 | 13.8437 | 18.968 |
2.0291 | 4.44 | 3700 | 1.9005 | 15.0456 | 5.3468 | 12.9521 | 13.8413 | 18.968 |
2.0291 | 4.56 | 3800 | 1.8991 | 15.0501 | 5.3539 | 12.9597 | 13.8408 | 18.968 |
2.0291 | 4.68 | 3900 | 1.8998 | 15.1219 | 5.3599 | 12.9936 | 13.9013 | 18.968 |
2.0193 | 4.8 | 4000 | 1.9004 | 15.0831 | 5.329 | 12.9697 | 13.8762 | 18.968 |
2.0193 | 4.92 | 4100 | 1.8997 | 15.0817 | 5.3292 | 12.958 | 13.8768 | 18.968 |
框架版本
Transformers
: 4.38.2Pytorch
: 2.2.1+cu121Datasets
: 2.18.0Tokenizers
: 0.15.2
🔧 技術細節
該模型基於google-t5/t5-small
進行微調,使用recogna-nlp/recognasumm
數據集進行訓練。訓練過程中採用了混合精度訓練(Native AMP)以提高訓練效率。同時,使用了Adam優化器和線性學習率調度器進行參數更新。
📄 許可證
該模型使用Apache-2.0許可證。
評論與反饋
歡迎提供任何想法、幫助或報告問題。你可以通過以下方式聯繫作者:
- 郵箱:rhaymisoncristian@gmail.com
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98