🚀 亚马逊多语言评论摘要生成模型(基于google/mT5-small)
本模型是基于 google/mT5-small 在多语言亚马逊评论数据集上微调得到的。它在评估集上取得了以下结果:
- 损失值:2.9368
- 模型准备时间:0.0038
- Rouge1:16.1955
- Rouge2:8.1292
- Rougel:15.9218
- Rougelsum:15.9516
🚀 快速开始
本模型可用于多语言产品评论摘要生成任务,支持英语和德语。
✨ 主要特性
📚 详细文档
模型描述
google/mT5-small
预期用途与限制
用于多语言产品评论摘要生成,支持的语言为英语和德语。
训练和评估数据
原始的多语言亚马逊产品评论数据集在 HuggingFace 上已失效。因此,我们使用了 Kaggle 上可用的版本。
原始数据集支持 6 种语言:英语、德语、法语、西班牙语、日语和查莫罗语。每种语言有 20,000 个训练样本、5,000 个验证样本和 5,000 个测试样本。
我们将此数据集上传到了 HuggingFace hub 的 srvmishra832/multilingual-amazon-reviews-6-languages。
在这里,我们仅选择了“pc”和“electronics”产品类别的英语和德语评论。我们使用评论标题作为摘要,并过滤掉评论标题极短的示例,以防止模型生成非常短的摘要。
最后,我们对生成的数据集进行下采样,以便在 Google colab T4 GPU 上能在合理时间内完成训练。最终下采样并合并后的数据集包含 8,000 个训练样本、452 个验证样本和 422 个测试样本。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:5.6e-05
- 训练批次大小:16
- 评估批次大小:16
- 随机种子:42
- 优化器:使用 OptimizerNames.ADAMW_TORCH,其中 betas=(0.9, 0.999),epsilon=1e-08,无额外优化器参数
- 学习率调度器类型:线性
- 训练轮数:10
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
模型准备时间 |
Rouge1 |
Rouge2 |
Rougel |
Rougelsum |
9.0889 |
1.0 |
500 |
3.4117 |
0.0038 |
12.541 |
5.1023 |
11.9039 |
11.8749 |
4.3977 |
2.0 |
1000 |
3.1900 |
0.0038 |
15.342 |
6.747 |
14.9223 |
14.8598 |
3.9595 |
3.0 |
1500 |
3.0817 |
0.0038 |
15.3976 |
6.2063 |
15.0635 |
15.069 |
3.7525 |
4.0 |
2000 |
3.0560 |
0.0038 |
15.7991 |
6.8536 |
15.4657 |
15.5263 |
3.6191 |
5.0 |
2500 |
3.0048 |
0.0038 |
16.3791 |
7.3671 |
16.0817 |
16.059 |
3.5155 |
6.0 |
3000 |
2.9779 |
0.0038 |
16.2311 |
7.5629 |
15.7492 |
15.758 |
3.4497 |
7.0 |
3500 |
2.9663 |
0.0038 |
16.2554 |
8.1464 |
15.9499 |
15.9152 |
3.3889 |
8.0 |
4000 |
2.9438 |
0.0038 |
16.5764 |
8.3698 |
16.3225 |
16.2848 |
3.3656 |
9.0 |
4500 |
2.9365 |
0.0038 |
16.1416 |
8.0266 |
15.8921 |
15.8913 |
3.3562 |
10.0 |
5000 |
2.9368 |
0.0038 |
16.1955 |
8.1292 |
15.9218 |
15.9516 |
框架版本
- Transformers 4.50.0
- Pytorch 2.6.0+cu124
- Datasets 3.4.1
- Tokenizers 0.21.1
📄 许可证
本项目采用 Apache-2.0 许可证。