T5 Portuguese Small Summarization
基于Google T5-small微调的葡萄牙语摘要生成模型,针对葡萄牙语文本摘要任务优化
下载量 158
发布时间 : 3/16/2024
模型简介
该模型专门用于葡萄牙语文本的摘要生成任务,是基于google-t5/t5-small架构微调的版本。虽然是小规模模型,但在葡萄牙语摘要任务上表现良好,可能存在偶尔的重音错误。
模型特点
葡萄牙语优化
专门针对葡萄牙语文本进行微调,优化了摘要生成能力
轻量级模型
基于T5-small架构,适合资源有限的环境部署
摘要生成
能够从长文本中提取关键信息生成简洁摘要
模型能力
文本摘要生成
葡萄牙语文本处理
文本压缩
使用案例
新闻摘要
政治新闻摘要
从政治新闻长文中提取关键事件和结果
如示例所示,能准确提取特朗普赢得初选等关键信息
医疗文本处理
医学概念摘要
从医学描述中提取核心概念
如示例所示,能准确概括躯体变形障碍的核心特征
🚀 t5-portuguese-small-summarization
该模型旨在满足葡萄牙语在特定任务上的模型需求,在摘要任务中表现出色。不过,由于模型为小版本,偶尔可能会出现因单词重音导致的错误。
🚀 快速开始
该模型是一个用于文本摘要的模型,基于google-t5/t5-small
进行微调。以下是使用该模型进行摘要生成的基本步骤:
安装依赖
!pip install transformers
加载模型和分词器
from transformers import pipeline
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")
定义输入文本
prompt =f"""
sumarize: Na segunda disputa estadual para escolher o candidato do partido republicano para as eleições de novembro nos Estados Unidos, o ex-presidente Donald Trump teve mais uma vitória. Ele venceu as primárias em New Hampshire, que ocorreram na terça-feira (23/01). Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto em sua vitória na primeira prévia do calendário eleitoral americano, em Iowa. Naquele Estado, Trump registrou 51% dos votos e vantagem de 30 pontos sobre o segundo colocado, o governador da Flórida, Ron DeSantis. No domingo (21/1), DeSantis anunciou sua desistência da corrida presidencial de 2024 e manifestou apoio a Trump. O movimento deixou Nikki Haley, ex-embaixadora dos Estados Unidos nas Nações Unidas, como a única rival significativa de Trump no partido.
"""
生成摘要
output = summarization(prompt)
输出结果
# Trump vence as primárias em New Hampshire, que ocorreram na terça-feira (23/01).
# Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto ao segundo colocado, governador da Flórida, Ron DeSantis.
✨ 主要特性
- 语言支持:支持葡萄牙语的文本摘要任务。
- 微调基础:基于
google-t5/t5-small
模型进行微调。 - 评估指标:使用Rouge指标进行评估。
📦 安装指南
要使用该模型,你需要安装transformers
库:
!pip install transformers
💻 使用示例
基础用法
from transformers import pipeline
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")
prompt = "sumarize: 这里可以替换为你要摘要的葡萄牙语文本"
output = summarization(prompt)
print(output)
高级用法
在实际应用中,你可以根据需要调整生成摘要的最大长度等参数:
from transformers import pipeline
# 加载模型和分词器
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")
# 定义输入文本
prompt = "sumarize: 这里可以替换为你要摘要的葡萄牙语文本"
# 调整生成摘要的最大长度
output = summarization(prompt, max_new_tokens=256)
print(output)
📚 详细文档
模型信息
属性 | 详情 |
---|---|
模型类型 | 基于google-t5/t5-small 微调的文本摘要模型 |
训练数据 | recogna-nlp/recognasumm 数据集 |
推理参数
推理时的参数设置如下:
max_new_tokens
: 128
训练超参数
以下是训练过程中使用的超参数:
learning_rate
: 2e-05train_batch_size
: 6eval_batch_size
: 6seed
: 42gradient_accumulation_steps
: 4total_train_batch_size
: 24optimizer
: Adam with betas=(0.9,0.999) and epsilon=1e-08lr_scheduler_type
: linearnum_epochs
: 25mixed_precision_training
: Native AMP
训练结果
训练损失 | 轮次 | 步数 | 验证损失 | Rouge1 | Rouge2 | Rougel | Rougelsum | 生成长度 |
---|---|---|---|---|---|---|---|---|
2.092 | 0.6 | 500 | 1.9551 | 14.6613 | 5.2159 | 12.5685 | 13.4544 | 18.968 |
2.092 | 0.72 | 600 | 1.9508 | 14.6862 | 5.2585 | 12.6345 | 13.5299 | 18.968 |
2.092 | 0.84 | 700 | 1.9473 | 14.7323 | 5.1636 | 12.6962 | 13.5118 | 18.968 |
2.092 | 0.96 | 800 | 1.9488 | 14.7104 | 5.1587 | 12.7019 | 13.5439 | 18.968 |
2.092 | 1.08 | 900 | 1.9397 | 14.8448 | 5.2826 | 12.7924 | 13.6464 | 18.968 |
2.077 | 1.2 | 1000 | 1.9373 | 14.9495 | 5.3975 | 12.8935 | 13.7491 | 18.968 |
2.077 | 1.32 | 1100 | 1.9372 | 14.93 | 5.4048 | 12.8809 | 13.7012 | 18.968 |
2.077 | 1.44 | 1200 | 1.9311 | 14.8196 | 5.2564 | 12.8279 | 13.6688 | 18.968 |
2.077 | 1.56 | 1300 | 1.9311 | 14.8757 | 5.2282 | 12.8286 | 13.7152 | 18.968 |
2.077 | 1.68 | 1400 | 1.9287 | 14.9308 | 5.3154 | 12.8522 | 13.7326 | 18.968 |
2.06 | 1.8 | 1500 | 1.9268 | 14.8923 | 5.2594 | 12.8387 | 13.6839 | 18.968 |
2.06 | 1.92 | 1600 | 1.9256 | 15.085 | 5.2911 | 12.9424 | 13.8375 | 18.968 |
2.06 | 2.04 | 1700 | 1.9245 | 14.9127 | 5.3024 | 12.8339 | 13.6987 | 18.968 |
2.06 | 2.16 | 1800 | 1.9197 | 15.0974 | 5.2812 | 12.9218 | 13.8758 | 18.968 |
2.06 | 2.28 | 1900 | 1.9172 | 15.0564 | 5.2437 | 12.8736 | 13.8318 | 18.968 |
2.0474 | 2.4 | 2000 | 1.9149 | 14.9414 | 5.1408 | 12.8381 | 13.7028 | 18.968 |
2.0474 | 2.52 | 2100 | 1.9149 | 15.0211 | 5.2195 | 12.954 | 13.809 | 18.968 |
2.0474 | 2.64 | 2200 | 1.9113 | 15.0689 | 5.2702 | 12.9338 | 13.8276 | 18.968 |
2.0474 | 2.76 | 2300 | 1.9129 | 15.134 | 5.2675 | 13.0113 | 13.9106 | 18.968 |
2.0474 | 2.88 | 2400 | 1.9103 | 15.1097 | 5.276 | 12.9856 | 13.8559 | 18.968 |
2.04 | 3.0 | 2500 | 1.9062 | 15.1413 | 5.2281 | 12.9537 | 13.8494 | 18.968 |
2.04 | 3.12 | 2600 | 1.9070 | 14.9792 | 5.2091 | 12.8586 | 13.695 | 18.968 |
2.04 | 3.24 | 2700 | 1.9066 | 14.9506 | 5.2238 | 12.8265 | 13.6925 | 18.968 |
2.04 | 3.36 | 2800 | 1.9063 | 15.053 | 5.2235 | 12.8833 | 13.7711 | 18.968 |
2.04 | 3.48 | 2900 | 1.9064 | 14.9386 | 5.1363 | 12.7915 | 13.688 | 18.968 |
2.0273 | 3.6 | 3000 | 1.9053 | 15.0901 | 5.2518 | 12.9063 | 13.8338 | 18.968 |
2.0273 | 3.72 | 3100 | 1.9059 | 15.0692 | 5.2665 | 12.932 | 13.8394 | 18.968 |
2.0273 | 3.84 | 3200 | 1.9021 | 15.0768 | 5.3179 | 12.9916 | 13.8653 | 18.968 |
2.0273 | 3.96 | 3300 | 1.9024 | 15.1808 | 5.3312 | 13.0143 | 13.9269 | 18.968 |
2.0273 | 4.08 | 3400 | 1.8981 | 15.0905 | 5.2769 | 12.9551 | 13.8666 | 18.968 |
2.0291 | 4.2 | 3500 | 1.9007 | 15.0453 | 5.3159 | 12.9429 | 13.824 | 18.968 |
2.0291 | 4.32 | 3600 | 1.9017 | 15.0403 | 5.3474 | 12.9625 | 13.8437 | 18.968 |
2.0291 | 4.44 | 3700 | 1.9005 | 15.0456 | 5.3468 | 12.9521 | 13.8413 | 18.968 |
2.0291 | 4.56 | 3800 | 1.8991 | 15.0501 | 5.3539 | 12.9597 | 13.8408 | 18.968 |
2.0291 | 4.68 | 3900 | 1.8998 | 15.1219 | 5.3599 | 12.9936 | 13.9013 | 18.968 |
2.0193 | 4.8 | 4000 | 1.9004 | 15.0831 | 5.329 | 12.9697 | 13.8762 | 18.968 |
2.0193 | 4.92 | 4100 | 1.8997 | 15.0817 | 5.3292 | 12.958 | 13.8768 | 18.968 |
框架版本
Transformers
: 4.38.2Pytorch
: 2.2.1+cu121Datasets
: 2.18.0Tokenizers
: 0.15.2
🔧 技术细节
该模型基于google-t5/t5-small
进行微调,使用recogna-nlp/recognasumm
数据集进行训练。训练过程中采用了混合精度训练(Native AMP)以提高训练效率。同时,使用了Adam优化器和线性学习率调度器进行参数更新。
📄 许可证
该模型使用Apache-2.0许可证。
评论与反馈
欢迎提供任何想法、帮助或报告问题。你可以通过以下方式联系作者:
- 邮箱:rhaymisoncristian@gmail.com
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98