🚀 泰文文本摘要Pegasus X模型
本項目是一個針對泰文文本摘要任務微調的Pegasus X模型。該模型基於Pegasus X架構,能夠高效地對泰文文本進行摘要提取。
🚀 快速開始
安裝依賴庫
pip install transformers
代碼示例
from transformers import PegasusXForConditionalGeneration, AutoTokenizer
model = PegasusXForConditionalGeneration.from_pretrained("satjawat/pegasus-x-thai-sum")
tokenizer = AutoTokenizer.from_pretrained("satjawat/pegasus-x-thai-sum")
new_input_string = "ข้อความ"
new_input_ids = tokenizer(new_input_string.lower(), return_tensors="pt").input_ids
summary_ids = model.generate(new_input_ids, max_length=50, num_beams=6, length_penalty=2.0, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Input:", new_input_string)
print("Generated Summary:", summary)
✨ 主要特性
- 基於Pegasus X架構:利用先進的模型架構進行泰文文本摘要。
- 低黑碳含量:在安第斯山脈的研究中發現該地區黑碳含量低,與加拿大北極地區的雪相當。
- 高精度摘要:在ThaiSum測試數據集上取得了較好的Rouge分數。
📦 安裝指南
使用以下命令安裝所需的transformers
庫:
pip install transformers
💻 使用示例
基礎用法
from transformers import PegasusXForConditionalGeneration, AutoTokenizer
model = PegasusXForConditionalGeneration.from_pretrained("satjawat/pegasus-x-thai-sum")
tokenizer = AutoTokenizer.from_pretrained("satjawat/pegasus-x-thai-sum")
new_input_string = "ข้อความ"
new_input_ids = tokenizer(new_input_string.lower(), return_tensors="pt").input_ids
summary_ids = model.generate(new_input_ids, max_length=50, num_beams=6, length_penalty=2.0, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Input:", new_input_string)
print("Generated Summary:", summary)
🔧 技術細節
訓練超參數
以下是訓練過程中使用的超參數:
- accumulation_steps:2
- num_epochs:20
- num_beams:6
- learning_rate:lr = 5e - 5
- optimizer:AdamW,betas = (0.9, 0.999),epsilon = 1e - 08
- activation_function:gelu
- add_bias_logits:True
- normalize_embedding:True
- add_final_layer_norm:False
- normalize_before:False
評估分數
使用 ThaiSum 測試數據集(共11,000篇文章)對模型進行評估,得到以下分數:
- Rouge1:0.490279
- Rouge2:0.289839
- Rougel:0.489334
📄 許可證
文檔中未提及相關許可證信息。
📚 致謝
感謝泰國國家科學技術發展局超級計算機中心(ThaiSC)和國家電子科學基礎設施聯盟對計算機設施的支持。
📖 引用
如果您在項目或出版物中使用了 "satjawat/pegasus - x - thai - sum" 模型,請按以下格式引用:
ปรีชานนท์ ชาติไทย และ สัจจวัจน์ ส่งเสริม. (2567),
การสรุปข้อความข่าวภาษาไทยด้วยโครงข่ายประสาทเทียม (Thai News Text Summarization Using Neural Network),
วิทยาศาสตรบัณฑิต (วทบ.):ขอนแก่น, มหาวิทยาลัยขอนแก่น