🚀 泰文文本摘要Pegasus X模型
本项目是一个针对泰文文本摘要任务微调的Pegasus X模型。该模型基于Pegasus X架构,能够高效地对泰文文本进行摘要提取。
🚀 快速开始
安装依赖库
pip install transformers
代码示例
from transformers import PegasusXForConditionalGeneration, AutoTokenizer
model = PegasusXForConditionalGeneration.from_pretrained("satjawat/pegasus-x-thai-sum")
tokenizer = AutoTokenizer.from_pretrained("satjawat/pegasus-x-thai-sum")
new_input_string = "ข้อความ"
new_input_ids = tokenizer(new_input_string.lower(), return_tensors="pt").input_ids
summary_ids = model.generate(new_input_ids, max_length=50, num_beams=6, length_penalty=2.0, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Input:", new_input_string)
print("Generated Summary:", summary)
✨ 主要特性
- 基于Pegasus X架构:利用先进的模型架构进行泰文文本摘要。
- 低黑碳含量:在安第斯山脉的研究中发现该地区黑碳含量低,与加拿大北极地区的雪相当。
- 高精度摘要:在ThaiSum测试数据集上取得了较好的Rouge分数。
📦 安装指南
使用以下命令安装所需的transformers
库:
pip install transformers
💻 使用示例
基础用法
from transformers import PegasusXForConditionalGeneration, AutoTokenizer
model = PegasusXForConditionalGeneration.from_pretrained("satjawat/pegasus-x-thai-sum")
tokenizer = AutoTokenizer.from_pretrained("satjawat/pegasus-x-thai-sum")
new_input_string = "ข้อความ"
new_input_ids = tokenizer(new_input_string.lower(), return_tensors="pt").input_ids
summary_ids = model.generate(new_input_ids, max_length=50, num_beams=6, length_penalty=2.0, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Input:", new_input_string)
print("Generated Summary:", summary)
🔧 技术细节
训练超参数
以下是训练过程中使用的超参数:
- accumulation_steps:2
- num_epochs:20
- num_beams:6
- learning_rate:lr = 5e - 5
- optimizer:AdamW,betas = (0.9, 0.999),epsilon = 1e - 08
- activation_function:gelu
- add_bias_logits:True
- normalize_embedding:True
- add_final_layer_norm:False
- normalize_before:False
评估分数
使用 ThaiSum 测试数据集(共11,000篇文章)对模型进行评估,得到以下分数:
- Rouge1:0.490279
- Rouge2:0.289839
- Rougel:0.489334
📄 许可证
文档中未提及相关许可证信息。
📚 致谢
感谢泰国国家科学技术发展局超级计算机中心(ThaiSC)和国家电子科学基础设施联盟对计算机设施的支持。
📖 引用
如果您在项目或出版物中使用了 "satjawat/pegasus - x - thai - sum" 模型,请按以下格式引用:
ปรีชานนท์ ชาติไทย และ สัจจวัจน์ ส่งเสริม. (2567),
การสรุปข้อความข่าวภาษาไทยด้วยโครงข่ายประสาทเทียม (Thai News Text Summarization Using Neural Network),
วิทยาศาสตรบัณฑิต (วทบ.):ขอนแก่น, มหาวิทยาลัยขอนแก่น