🚀 土耳其新闻摘要模型
本模型是专为生成简洁连贯的土耳其新闻文章摘要而设计的。它基于 mukayese/mt5-base-turkish-summarization
进行微调,利用 yeniguno/turkish-news-summary-onesentence
数据集训练,能够有效提升对土耳其新闻内容进行摘要的能力,生成更精炼的新闻摘要。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import pipeline
pipe = pipeline("summarization", model="yeniguno/turkish-abstractive-summary-mt5")
text = """Brezilya'nın kuzeydoğu kıyısındaki Recife kentinde yangın çıkan bir gökdelen alevlere teslim oldu. Paylaşılan video kaydında, binayı alt katlarından üst katlarına kadar alevlerin sardığı görüldü. İlk belirlemelere göre ölen ya da yaralanan olmadı. Timesnow'ın haberine göre, binadan molozlar düşmesi nedeniyle civardaki binaların elektriği kesildi ve binalar tahliye edildi."""
response = pipe(
text,
max_length=150,
num_beams=4,
length_penalty=3.0,
early_stopping=True
)
print(response[0]["summary_text"])
✨ 主要特性
此模型适用于需要对土耳其新闻内容进行摘要的应用场景,例如新闻聚合平台、内容策划服务,以及旨在为长篇新闻文章提供快速概览的应用程序。
🔧 技术细节
训练数据
该模型在 yeniguno/turkish-news-summary-onesentence
数据集上进行微调,该数据集包含约 60,000 篇土耳其新闻文章及其对应的单句摘要。
训练过程
模型使用 mukayese/mt5-base-turkish-summarization
在 yeniguno/turkish-news-summary-onesentence
数据集上进行微调。训练使用了 Hugging Face 的 transformers
库,并采用了以下超参数:
- 学习率:
5e-6
- 批量大小:训练和评估时每个设备为
8
- 权重衰减:
0.01
- 训练轮数:
10
- 评估策略:
epoch
(每轮训练结束时进行评估)
- 损失函数:交叉熵损失
- 优化器:AdamW
- 训练步数:
49,560
- 总浮点运算次数:
7.78e+17
- 使用生成进行预测:启用
微调过程在 单个 GPU 上进行,并使用 DataCollatorForSeq2Seq
进行动态填充。
📚 详细文档
评估指标
为了评估模型的性能,我们使用了 ROUGE 分数,这是文本摘要任务中广泛使用的指标。在每轮训练结束时,在验证集上计算以下指标:
轮数 |
训练损失 |
验证损失 |
ROUGE-1 |
ROUGE-2 |
ROUGE-L |
生成摘要平均长度 |
1 |
1.3854 |
1.2058 |
35.10 |
22.95 |
31.92 |
8.86 |
2 |
1.2895 |
1.1541 |
36.27 |
24.05 |
33.05 |
8.87 |
3 |
1.2631 |
1.1258 |
36.58 |
24.55 |
33.41 |
8.85 |
4 |
1.2318 |
1.1072 |
36.98 |
24.95 |
33.80 |
8.84 |
5 |
1.2130 |
1.0946 |
37.17 |
25.18 |
34.01 |
8.83 |
6 |
1.1948 |
1.0861 |
37.38 |
25.41 |
34.22 |
8.83 |
7 |
1.1888 |
1.0803 |
37.56 |
25.60 |
34.39 |
8.83 |
8 |
1.1810 |
1.0764 |
37.58 |
25.63 |
34.41 |
8.84 |
9 |
1.1690 |
1.0738 |
37.68 |
25.74 |
34.52 |
8.83 |
10 |
1.1814 |
1.0732 |
37.68 |
25.73 |
34.52 |
8.84 |
- ROUGE-1:衡量生成摘要与参考摘要之间一元词组的重叠程度。
- ROUGE-2:衡量二元词组的重叠程度。
- ROUGE-L:衡量参考摘要和生成摘要之间最长公共子序列的长度。
- 生成摘要平均长度:表示生成摘要的平均长度。
经过 10 轮训练 后,模型在验证数据集上达到了 ROUGE-1: 37.68,ROUGE-2: 25.73,ROUGE-L: 34.52,表明其摘要能力有所提升。训练结束时,最终训练损失为 1.2444,最后记录的 验证损失为 1.0732。该模型经过优化,能够在保持高 语义准确性和可读性 的同时,生成更简洁紧凑的土耳其新闻摘要。
📄 许可证
本模型采用 Apache 2.0 许可证。