🚀 wiki_13
该模型是基于未知数据集对进行微调后的版本。它在评估集上取得了以下结果:
🚀 快速开始
本部分暂未提供相关内容,可根据实际使用场景,参考后续模型训练及评估等信息来启动模型的使用。
✨ 主要特性
此模型是经过微调的版本,在评估集上有特定的损失值表现,可用于相关领域的任务,但具体适用场景需结合更多信息判断。
📚 详细文档
模型描述
该模型是对在未知数据集上进行微调后的版本,目前更多详细信息待补充。
预期用途与限制
目前关于该模型的预期用途和限制的详细信息有待进一步补充。
训练和评估数据
目前关于训练和评估数据的详细信息有待进一步补充。
🔧 技术细节
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:0.0001
- 训练批次大小:16
- 评估批次大小:16
- 随机种子:13
- 梯度累积步数:2
- 总训练批次大小:32
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:40000
- 训练步数:100000
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
无日志记录 |
0.9847 |
2000 |
8.0854 |
8.1286 |
1.9695 |
4000 |
7.4147 |
8.1286 |
2.9542 |
6000 |
7.2936 |
7.3042 |
3.9389 |
8000 |
7.2263 |
7.3042 |
4.9237 |
10000 |
7.1350 |
7.1348 |
5.9084 |
12000 |
7.0611 |
7.1348 |
6.8932 |
14000 |
7.0000 |
6.9718 |
7.8779 |
16000 |
6.9539 |
6.9718 |
8.8626 |
18000 |
6.8852 |
6.8205 |
9.8474 |
20000 |
6.8512 |
6.8205 |
10.8321 |
22000 |
6.8137 |
6.6971 |
11.8168 |
24000 |
6.7650 |
6.6971 |
12.8016 |
26000 |
6.6483 |
6.5488 |
13.7863 |
28000 |
6.5099 |
6.5488 |
14.7710 |
30000 |
6.2472 |
6.2179 |
15.7558 |
32000 |
5.9238 |
6.2179 |
16.7405 |
34000 |
5.3578 |
5.4765 |
17.7253 |
36000 |
5.0209 |
5.4765 |
18.7100 |
38000 |
4.7463 |
4.8038 |
19.6947 |
40000 |
4.5390 |
4.8038 |
20.6795 |
42000 |
4.3029 |
4.341 |
21.6642 |
44000 |
4.1737 |
4.341 |
22.6489 |
46000 |
4.0038 |
3.993 |
23.6337 |
48000 |
3.8794 |
3.993 |
24.6184 |
50000 |
3.7730 |
3.74 |
25.6032 |
52000 |
3.6758 |
3.74 |
26.5879 |
54000 |
3.6050 |
3.5482 |
27.5726 |
56000 |
3.5573 |
3.5482 |
28.5574 |
58000 |
3.4807 |
3.4039 |
29.5421 |
60000 |
3.4149 |
3.4039 |
30.5268 |
62000 |
3.3689 |
3.2796 |
31.5116 |
64000 |
3.3317 |
3.2796 |
32.4963 |
66000 |
3.2805 |
3.1856 |
33.4810 |
68000 |
3.2562 |
3.1856 |
34.4658 |
70000 |
3.2052 |
3.1083 |
35.4505 |
72000 |
3.1827 |
3.1083 |
36.4353 |
74000 |
3.1513 |
3.0408 |
37.4200 |
76000 |
3.1234 |
3.0408 |
38.4047 |
78000 |
3.0981 |
2.9838 |
39.3895 |
80000 |
3.0862 |
2.9838 |
40.3742 |
82000 |
3.0890 |
2.939 |
41.3589 |
84000 |
3.0375 |
2.939 |
42.3437 |
86000 |
3.0297 |
2.8967 |
43.3284 |
88000 |
3.0112 |
2.8967 |
44.3131 |
90000 |
2.9907 |
2.8682 |
45.2979 |
92000 |
2.9836 |
2.8682 |
46.2826 |
94000 |
3.0020 |
2.8445 |
47.2674 |
96000 |
2.9588 |
2.8445 |
48.2521 |
98000 |
2.9804 |
2.8208 |
49.2368 |
100000 |
2.9591 |
框架版本
- Transformers 4.45.2
- Pytorch 2.5.1+cu124
- Datasets 3.0.1
- Tokenizers 0.20.1