🚀 日语语音识别模型 wav2vec2-xls-r-1b
本模型基于facebook/wav2vec2-xls-r-1b
进行微调,使用了多个公开的日语语音数据集进行训练,可用于日语语音识别任务,在多个基准测试中表现良好。
🚀 快速开始
评估模型
使用以下命令运行评估:
pip install mecab-python3 unidic-lite pykakasi
python eval.py --model_id vumichien/wav2vec2-xls-r-1b-japanese --dataset mozilla-foundation/common_voice_7_0 --config ja --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs
✨ 主要特性
- 基于
facebook/wav2vec2-xls-r-1b
模型进行微调,适用于日语语音识别。
- 使用多个公开的日语语音数据集进行训练,包括Common Voice 7.0、JUST、JSSS和CSS10等。
- 在多个基准测试中取得了较好的WER(词错误率)和CER(字符错误率)结果。
📚 详细文档
模型描述
该模型是 facebook/wav2vec2-xls-r-1b 在多个公开日语语音数据集上的微调版本,这些数据集包括 Common Voice 7.0、JUST(东京大学猿渡实验室的日语语音语料库)、JSSS(用于摘要和简化的日语语音语料库)、CSS10(单说话人语音数据集集合)。预处理数据集可在 VUMICHIEN/COMMON_VOICE_LARGE_JSUT_JSSS_CSS10 中找到。
总训练数据
约60小时
基准测试WER结果
基准测试CER结果
评估
请使用eval.py
文件运行评估:
pip install mecab-python3 unidic-lite pykakasi
python eval.py --model_id vumichien/wav2vec2-xls-r-1b-japanese --dataset mozilla-foundation/common_voice_7_0 --config ja --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:5e-05
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:64
- 优化器:Adam,β=(0.9, 0.999),ε=1e-08
- 学习率调度器类型:线性
- 学习率调度器热身步数:1000
- 训练轮数:100.0
- 混合精度训练:Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(WER) |
字符错误率(CER) |
2.2896 |
3.37 |
1500 |
0.4748 |
0.4013 |
0.1767 |
1.1608 |
6.74 |
3000 |
0.3350 |
0.3159 |
0.1456 |
1.1042 |
10.11 |
4500 |
0.3119 |
0.2971 |
0.1400 |
1.0494 |
13.48 |
6000 |
0.2974 |
0.2867 |
0.1353 |
1.0061 |
16.85 |
7500 |
0.2802 |
0.2746 |
0.1300 |
0.9629 |
20.22 |
9000 |
0.2844 |
0.2776 |
0.1326 |
0.9267 |
23.59 |
10500 |
0.2577 |
0.2603 |
0.1255 |
0.8984 |
26.96 |
12000 |
0.2508 |
0.2531 |
0.1226 |
0.8729 |
30.34 |
13500 |
0.2629 |
0.2606 |
0.1254 |
0.8546 |
33.71 |
15000 |
0.2402 |
0.2447 |
0.1193 |
0.8304 |
37.08 |
16500 |
0.2532 |
0.2472 |
0.1209 |
0.8075 |
40.45 |
18000 |
0.2439 |
0.2469 |
0.1198 |
0.7827 |
43.82 |
19500 |
0.2387 |
0.2372 |
0.1167 |
0.7627 |
47.19 |
21000 |
0.2344 |
0.2331 |
0.1147 |
0.7402 |
50.56 |
22500 |
0.2314 |
0.2299 |
0.1135 |
0.718 |
53.93 |
24000 |
0.2257 |
0.2267 |
0.1114 |
0.7016 |
57.3 |
25500 |
0.2204 |
0.2184 |
0.1089 |
0.6804 |
60.67 |
27000 |
0.2227 |
0.2181 |
0.1085 |
0.6625 |
64.04 |
28500 |
0.2138 |
0.2112 |
0.1058 |
0.6465 |
67.42 |
30000 |
0.2141 |
0.2081 |
0.1044 |
0.6238 |
70.79 |
31500 |
0.2172 |
0.2082 |
0.1050 |
0.6062 |
74.16 |
33000 |
0.2174 |
0.2058 |
0.1043 |
0.588 |
77.53 |
34500 |
0.2156 |
0.2034 |
0.1027 |
0.5722 |
80.9 |
36000 |
0.2162 |
0.2032 |
0.1029 |
0.5585 |
84.27 |
37500 |
0.2156 |
0.2022 |
0.1021 |
0.5456 |
87.64 |
39000 |
0.2126 |
0.1993 |
0.1009 |
0.5325 |
91.01 |
40500 |
0.2121 |
0.1966 |
0.1003 |
0.5229 |
94.38 |
42000 |
0.2104 |
0.1941 |
0.0991 |
0.5134 |
97.75 |
43500 |
0.2108 |
0.1948 |
0.0992 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.11.0
📄 许可证
本项目采用 Apache-2.0 许可证。