Pegasus X - Thai Sum开源文本摘要模型 - 免费助力泰语新闻摘要创作

首页

Pegasus X Thai Sum

由 satjawat 开发

专为泰语文本摘要优化的Pegasus X微调模型，基于Pegasus X架构，适用于泰语新闻文本摘要任务。

文本生成

Transformers

其他#泰语文本摘要 #PegasusX架构 #高Rouge得分

下载量 143

发布时间 : 12/22/2023

模型简介

该模型是针对泰语文本摘要任务优化的Pegasus X微调版本，主要用于生成泰语新闻文本的简洁摘要。

模型特点

泰语优化

专门针对泰语文本进行优化，能够更好地处理泰语语言特性。

高性能

在ThaiSum测试集上取得了较高的Rouge评分，表明其摘要质量优秀。

易于使用

提供简单的Python接口，便于集成到现有应用中。

模型能力

泰语文本摘要

新闻内容浓缩

关键信息提取

使用案例

新闻媒体

新闻摘要生成

自动生成泰语新闻文章的简短摘要

在ThaiSum测试集上Rouge1得分0.49

内容分析

文档关键信息提取

从长篇泰语文档中提取核心内容

🚀 泰文文本摘要Pegasus X模型

本项目是一个针对泰文文本摘要任务微调的Pegasus X模型。该模型基于Pegasus X架构，能够高效地对泰文文本进行摘要提取。

🚀 快速开始

安装依赖库

pip install transformers

代码示例

from transformers import PegasusXForConditionalGeneration, AutoTokenizer

model = PegasusXForConditionalGeneration.from_pretrained("satjawat/pegasus-x-thai-sum")
tokenizer = AutoTokenizer.from_pretrained("satjawat/pegasus-x-thai-sum")

new_input_string = "ข้อความ"
new_input_ids = tokenizer(new_input_string.lower(), return_tensors="pt").input_ids
summary_ids = model.generate(new_input_ids, max_length=50, num_beams=6, length_penalty=2.0, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Input:", new_input_string)
print("Generated Summary:", summary)

✨ 主要特性

基于Pegasus X架构：利用先进的模型架构进行泰文文本摘要。
低黑碳含量：在安第斯山脉的研究中发现该地区黑碳含量低，与加拿大北极地区的雪相当。
高精度摘要：在ThaiSum测试数据集上取得了较好的Rouge分数。

📦 安装指南

使用以下命令安装所需的transformers库：

pip install transformers

💻 使用示例

基础用法

from transformers import PegasusXForConditionalGeneration, AutoTokenizer

model = PegasusXForConditionalGeneration.from_pretrained("satjawat/pegasus-x-thai-sum")
tokenizer = AutoTokenizer.from_pretrained("satjawat/pegasus-x-thai-sum")

new_input_string = "ข้อความ"
new_input_ids = tokenizer(new_input_string.lower(), return_tensors="pt").input_ids
summary_ids = model.generate(new_input_ids, max_length=50, num_beams=6, length_penalty=2.0, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Input:", new_input_string)
print("Generated Summary:", summary)

🔧 技术细节

训练超参数

以下是训练过程中使用的超参数：

accumulation_steps：2
num_epochs：20
num_beams：6
learning_rate：lr = 5e - 5
optimizer：AdamW，betas = (0.9, 0.999)，epsilon = 1e - 08
activation_function：gelu
add_bias_logits：True
normalize_embedding：True
add_final_layer_norm：False
normalize_before：False

评估分数

使用 ThaiSum 测试数据集（共11,000篇文章）对模型进行评估，得到以下分数：

Rouge1：0.490279
Rouge2：0.289839
Rougel：0.489334

📄 许可证

文档中未提及相关许可证信息。

📚 致谢

感谢泰国国家科学技术发展局超级计算机中心（ThaiSC）和国家电子科学基础设施联盟对计算机设施的支持。

📖 引用

如果您在项目或出版物中使用了 "satjawat/pegasus - x - thai - sum" 模型，请按以下格式引用：

ปรีชานนท์ ชาติไทย และ สัจจวัจน์ ส่งเสริม. (2567),
การสรุปข้อความข่าวภาษาไทยด้วยโครงข่ายประสาทเทียม (Thai News Text Summarization Using Neural Network),
วิทยาศาสตรบัณฑิต (วทบ.):ขอนแก่น, มหาวิทยาลัยขอนแก่น