t5-portuguese-small-summarization开源模型 - 免费部署优化葡萄牙语文本摘要生成

首页

T5 Portuguese Small Summarization

由 rhaymison 开发

基于Google T5-small微调的葡萄牙语摘要生成模型，针对葡萄牙语文本摘要任务优化

文本生成

Transformers

其他开源协议:Apache-2.0 #葡萄牙语摘要 #轻量级T5 #新闻摘要

下载量 158

发布时间 : 3/16/2024

模型简介

该模型专门用于葡萄牙语文本的摘要生成任务，是基于google-t5/t5-small架构微调的版本。虽然是小规模模型，但在葡萄牙语摘要任务上表现良好，可能存在偶尔的重音错误。

模型特点

葡萄牙语优化

专门针对葡萄牙语文本进行微调，优化了摘要生成能力

轻量级模型

基于T5-small架构，适合资源有限的环境部署

摘要生成

能够从长文本中提取关键信息生成简洁摘要

模型能力

文本摘要生成

葡萄牙语文本处理

文本压缩

使用案例

新闻摘要

政治新闻摘要

从政治新闻长文中提取关键事件和结果

如示例所示，能准确提取特朗普赢得初选等关键信息

医疗文本处理

医学概念摘要

从医学描述中提取核心概念

如示例所示，能准确概括躯体变形障碍的核心特征

🚀 t5-portuguese-small-summarization

该模型旨在满足葡萄牙语在特定任务上的模型需求，在摘要任务中表现出色。不过，由于模型为小版本，偶尔可能会出现因单词重音导致的错误。

🚀 快速开始

该模型是一个用于文本摘要的模型，基于google-t5/t5-small进行微调。以下是使用该模型进行摘要生成的基本步骤：

安装依赖

!pip install transformers

加载模型和分词器

from transformers import pipeline
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")

定义输入文本

prompt =f"""
sumarize: Na segunda disputa estadual para escolher o candidato do partido republicano para as eleições de novembro nos Estados Unidos, o ex-presidente Donald Trump teve mais uma vitória. Ele venceu as primárias em New Hampshire, que ocorreram na terça-feira (23/01). Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto em sua vitória na primeira prévia do calendário eleitoral americano, em Iowa. Naquele Estado, Trump registrou 51% dos votos e vantagem de 30 pontos sobre o segundo colocado, o governador da Flórida, Ron DeSantis. No domingo (21/1), DeSantis anunciou sua desistência da corrida presidencial de 2024 e manifestou apoio a Trump. O movimento deixou Nikki Haley, ex-embaixadora dos Estados Unidos nas Nações Unidas, como a única rival significativa de Trump no partido.
"""

生成摘要

output =  summarization(prompt)

输出结果

# Trump vence as primárias em New Hampshire, que ocorreram na terça-feira (23/01).
# Antes disso, o favoritismo de Trump, apontado por diversas pesquisas, foi visto ao segundo colocado, governador da Flórida, Ron DeSantis.

✨ 主要特性

语言支持：支持葡萄牙语的文本摘要任务。
微调基础：基于google-t5/t5-small模型进行微调。
评估指标：使用Rouge指标进行评估。

📦 安装指南

要使用该模型，你需要安装transformers库：

!pip install transformers

💻 使用示例

基础用法

from transformers import pipeline
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")

prompt = "sumarize: 这里可以替换为你要摘要的葡萄牙语文本"
output = summarization(prompt)
print(output)

高级用法

在实际应用中，你可以根据需要调整生成摘要的最大长度等参数：

from transformers import pipeline

# 加载模型和分词器
summarization = pipeline("summarization", model="rhaymison/t5-portuguese-small-summarization", tokenizer="rhaymison/t5-portuguese-small-summarization")

# 定义输入文本
prompt = "sumarize: 这里可以替换为你要摘要的葡萄牙语文本"

# 调整生成摘要的最大长度
output = summarization(prompt, max_new_tokens=256)
print(output)

📚 详细文档

模型信息

属性	详情
模型类型	基于`google-t5/t5-small`微调的文本摘要模型
训练数据	`recogna-nlp/recognasumm`数据集

推理参数

推理时的参数设置如下：

max_new_tokens: 128

训练超参数

以下是训练过程中使用的超参数：

learning_rate: 2e-05
train_batch_size: 6
eval_batch_size: 6
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 24
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 25
mixed_precision_training: Native AMP

训练结果

训练损失	轮次	步数	验证损失	Rouge1	Rouge2	Rougel	Rougelsum	生成长度
2.092	0.6	500	1.9551	14.6613	5.2159	12.5685	13.4544	18.968
2.092	0.72	600	1.9508	14.6862	5.2585	12.6345	13.5299	18.968
2.092	0.84	700	1.9473	14.7323	5.1636	12.6962	13.5118	18.968
2.092	0.96	800	1.9488	14.7104	5.1587	12.7019	13.5439	18.968
2.092	1.08	900	1.9397	14.8448	5.2826	12.7924	13.6464	18.968
2.077	1.2	1000	1.9373	14.9495	5.3975	12.8935	13.7491	18.968
2.077	1.32	1100	1.9372	14.93	5.4048	12.8809	13.7012	18.968
2.077	1.44	1200	1.9311	14.8196	5.2564	12.8279	13.6688	18.968
2.077	1.56	1300	1.9311	14.8757	5.2282	12.8286	13.7152	18.968
2.077	1.68	1400	1.9287	14.9308	5.3154	12.8522	13.7326	18.968
2.06	1.8	1500	1.9268	14.8923	5.2594	12.8387	13.6839	18.968
2.06	1.92	1600	1.9256	15.085	5.2911	12.9424	13.8375	18.968
2.06	2.04	1700	1.9245	14.9127	5.3024	12.8339	13.6987	18.968
2.06	2.16	1800	1.9197	15.0974	5.2812	12.9218	13.8758	18.968
2.06	2.28	1900	1.9172	15.0564	5.2437	12.8736	13.8318	18.968
2.0474	2.4	2000	1.9149	14.9414	5.1408	12.8381	13.7028	18.968
2.0474	2.52	2100	1.9149	15.0211	5.2195	12.954	13.809	18.968
2.0474	2.64	2200	1.9113	15.0689	5.2702	12.9338	13.8276	18.968
2.0474	2.76	2300	1.9129	15.134	5.2675	13.0113	13.9106	18.968
2.0474	2.88	2400	1.9103	15.1097	5.276	12.9856	13.8559	18.968
2.04	3.0	2500	1.9062	15.1413	5.2281	12.9537	13.8494	18.968
2.04	3.12	2600	1.9070	14.9792	5.2091	12.8586	13.695	18.968
2.04	3.24	2700	1.9066	14.9506	5.2238	12.8265	13.6925	18.968
2.04	3.36	2800	1.9063	15.053	5.2235	12.8833	13.7711	18.968
2.04	3.48	2900	1.9064	14.9386	5.1363	12.7915	13.688	18.968
2.0273	3.6	3000	1.9053	15.0901	5.2518	12.9063	13.8338	18.968
2.0273	3.72	3100	1.9059	15.0692	5.2665	12.932	13.8394	18.968
2.0273	3.84	3200	1.9021	15.0768	5.3179	12.9916	13.8653	18.968
2.0273	3.96	3300	1.9024	15.1808	5.3312	13.0143	13.9269	18.968
2.0273	4.08	3400	1.8981	15.0905	5.2769	12.9551	13.8666	18.968
2.0291	4.2	3500	1.9007	15.0453	5.3159	12.9429	13.824	18.968
2.0291	4.32	3600	1.9017	15.0403	5.3474	12.9625	13.8437	18.968
2.0291	4.44	3700	1.9005	15.0456	5.3468	12.9521	13.8413	18.968
2.0291	4.56	3800	1.8991	15.0501	5.3539	12.9597	13.8408	18.968
2.0291	4.68	3900	1.8998	15.1219	5.3599	12.9936	13.9013	18.968
2.0193	4.8	4000	1.9004	15.0831	5.329	12.9697	13.8762	18.968
2.0193	4.92	4100	1.8997	15.0817	5.3292	12.958	13.8768	18.968