本项目聚焦于土耳其语自然语言处理的文本摘要任务,通过特定模型在相关数据集上训练,取得了不错的评估结果。同时提供了详细的训练参数和框架版本信息,方便后续研究与复现。
🚀 快速开始
本模型专注于文本摘要任务,可用于对土耳其语文本进行自动摘要生成。它名为 mukayese/transformer-turkish-summarization
,是无大小写区分的模型,从初始状态开始训练,仅在 mlsum/tu
数据集上进行训练,未进行预训练。
✨ 主要特性
评估结果
该模型在评估集上取得了以下成绩:
- Rouge1: 43.2049
- Rouge2: 30.7082
- Rougel: 38.1981
- Rougelsum: 39.9453
模型与数据集详情
更多关于模型和数据集的详细信息,请查看 这篇论文。
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate): 0.0001
- 训练批次大小(train_batch_size): 4
- 评估批次大小(eval_batch_size): 8
- 随机种子(seed): 42
- 分布式类型(distributed_type): 多GPU
- 设备数量(num_devices): 8
- 梯度累积步数(gradient_accumulation_steps): 2
- 总训练批次大小(total_train_batch_size): 64
- 总评估批次大小(total_eval_batch_size): 64
- 优化器(optimizer): Adam,β值为(0.9, 0.999),ε值为 1e - 08
- 学习率调度器类型(lr_scheduler_type): 线性
- 训练轮数(num_epochs): 15.0
- 混合精度训练(mixed_precision_training): 原生自动混合精度(Native AMP)
- 标签平滑因子(label_smoothing_factor): 0.1
框架版本
- Transformers 4.11.3
- Pytorch 1.8.2+cu111
- Datasets 1.14.0
- Tokenizers 0.10.3
引用信息
@misc{safaya-etal-2022-mukayese,
title={Mukayese: Turkish NLP Strikes Back},
author={Ali Safaya and Emirhan Kurtuluş and Arda Göktoğan and Deniz Yuret},
year={2022},
eprint={2203.01215},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本项目采用 MIT 许可证。
属性 |
详情 |
数据集 |
mlsum |
评估指标 |
rouge |
模型名称 |
mukayese/transformer-turkish-summarization |
许可证 |
MIT |
语言 |
土耳其语(tr) |
任务类型 |
文本摘要(summarization) |