🚀 亞馬遜多語言評論摘要生成模型(基於google/mT5-small)
本模型是基於 google/mT5-small 在多語言亞馬遜評論數據集上微調得到的。它在評估集上取得了以下結果:
- 損失值:2.9368
- 模型準備時間:0.0038
- Rouge1:16.1955
- Rouge2:8.1292
- Rougel:15.9218
- Rougelsum:15.9516
🚀 快速開始
本模型可用於多語言產品評論摘要生成任務,支持英語和德語。
✨ 主要特性
📚 詳細文檔
模型描述
google/mT5-small
預期用途與限制
用於多語言產品評論摘要生成,支持的語言為英語和德語。
訓練和評估數據
原始的多語言亞馬遜產品評論數據集在 HuggingFace 上已失效。因此,我們使用了 Kaggle 上可用的版本。
原始數據集支持 6 種語言:英語、德語、法語、西班牙語、日語和查莫羅語。每種語言有 20,000 個訓練樣本、5,000 個驗證樣本和 5,000 個測試樣本。
我們將此數據集上傳到了 HuggingFace hub 的 srvmishra832/multilingual-amazon-reviews-6-languages。
在這裡,我們僅選擇了“pc”和“electronics”產品類別的英語和德語評論。我們使用評論標題作為摘要,並過濾掉評論標題極短的示例,以防止模型生成非常短的摘要。
最後,我們對生成的數據集進行下采樣,以便在 Google colab T4 GPU 上能在合理時間內完成訓練。最終下采樣併合並後的數據集包含 8,000 個訓練樣本、452 個驗證樣本和 422 個測試樣本。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:5.6e-05
- 訓練批次大小:16
- 評估批次大小:16
- 隨機種子:42
- 優化器:使用 OptimizerNames.ADAMW_TORCH,其中 betas=(0.9, 0.999),epsilon=1e-08,無額外優化器參數
- 學習率調度器類型:線性
- 訓練輪數:10
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
模型準備時間 |
Rouge1 |
Rouge2 |
Rougel |
Rougelsum |
9.0889 |
1.0 |
500 |
3.4117 |
0.0038 |
12.541 |
5.1023 |
11.9039 |
11.8749 |
4.3977 |
2.0 |
1000 |
3.1900 |
0.0038 |
15.342 |
6.747 |
14.9223 |
14.8598 |
3.9595 |
3.0 |
1500 |
3.0817 |
0.0038 |
15.3976 |
6.2063 |
15.0635 |
15.069 |
3.7525 |
4.0 |
2000 |
3.0560 |
0.0038 |
15.7991 |
6.8536 |
15.4657 |
15.5263 |
3.6191 |
5.0 |
2500 |
3.0048 |
0.0038 |
16.3791 |
7.3671 |
16.0817 |
16.059 |
3.5155 |
6.0 |
3000 |
2.9779 |
0.0038 |
16.2311 |
7.5629 |
15.7492 |
15.758 |
3.4497 |
7.0 |
3500 |
2.9663 |
0.0038 |
16.2554 |
8.1464 |
15.9499 |
15.9152 |
3.3889 |
8.0 |
4000 |
2.9438 |
0.0038 |
16.5764 |
8.3698 |
16.3225 |
16.2848 |
3.3656 |
9.0 |
4500 |
2.9365 |
0.0038 |
16.1416 |
8.0266 |
15.8921 |
15.8913 |
3.3562 |
10.0 |
5000 |
2.9368 |
0.0038 |
16.1955 |
8.1292 |
15.9218 |
15.9516 |
框架版本
- Transformers 4.50.0
- Pytorch 2.6.0+cu124
- Datasets 3.4.1
- Tokenizers 0.21.1
📄 許可證
本項目採用 Apache-2.0 許可證。