🚀 W2V2-BERT-withLM-Malayalam
该模型是在 IMASC、MSC、OpenSLR Malayalam Train split、Festvox Malayalam、CV16 上对 facebook/w2v-bert-2.0 进行微调后的版本。它在语音识别任务中表现出色,为马拉雅拉姆语的语音处理提供了有效的解决方案。
🚀 快速开始
此模型是一个经过微调的版本,基于 facebook/w2v-bert-2.0 在多个数据集上进行训练。它在验证集 OpenSLR-Test 上取得了以下结果:
- 损失值: 0.1722
- 字错率 (Wer): 0.1299
此外,还使用 KENLM 库在 kavyamanohar/ml-sentences 数据集上训练了三元语言模型。
📚 详细文档
模型信息
属性 |
详情 |
基础模型 |
facebook/w2v-bert-2.0 |
许可证 |
MIT |
评估指标 |
字错率 (Wer) |
支持语言 |
马拉雅拉姆语 (ml) |
任务类型 |
自动语音识别 |
模型表现
由 Bajiyo Baiju 和 Kavya Manohar 开发的 W2V2-BERT-withLM-Malayalam 模型在多个数据集上进行了评估,结果如下:
数据集名称 |
数据集类型 |
配置 |
分割 |
参数 |
字错率 (Wer) |
OpenSLR Malayalam -Test |
vrclc/openslr63 |
ml |
test |
ml |
18.23 |
Google Fleurs |
google/fleurs |
ml |
test |
ml |
31.92 |
Mozilla Common Voice |
mozilla-foundation/common_voice_16_1 |
ml |
test |
ml |
49.79 |
训练和评估数据
训练和评估使用了以下数据集:
- vrclc/festvox-iiith-ml
- vrclc/openslr63
- vrclc/imasc_slr
- mozilla-foundation/common_voice_17_0
- smcproject/MSC
- kavyamanohar/ml-sentences
- thennal/IMaSC
训练过程
训练超参数
在训练过程中使用了以下超参数:
- 学习率: 5e-05
- 训练批次大小: 16
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 32
- 优化器: Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 学习率调度器类型: 线性
- 学习率调度器热身步数: 500
- 训练轮数: 10
- 混合精度训练: 原生自动混合精度 (Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
字错率 (Wer) |
1.1416 |
0.46 |
600 |
0.3393 |
0.4616 |
0.1734 |
0.92 |
1200 |
0.2414 |
0.3493 |
0.1254 |
1.38 |
1800 |
0.2205 |
0.2963 |
0.1097 |
1.84 |
2400 |
0.2157 |
0.3133 |
0.0923 |
2.3 |
3000 |
0.1854 |
0.2473 |
0.0792 |
2.76 |
3600 |
0.1939 |
0.2471 |
0.0696 |
3.22 |
4200 |
0.1720 |
0.2282 |
0.0589 |
3.68 |
4800 |
0.1768 |
0.2013 |
0.0552 |
4.14 |
5400 |
0.1635 |
0.1864 |
0.0437 |
4.6 |
6000 |
0.1501 |
0.1826 |
0.0408 |
5.06 |
6600 |
0.1500 |
0.1645 |
0.0314 |
5.52 |
7200 |
0.1559 |
0.1655 |
0.0317 |
5.98 |
7800 |
0.1448 |
0.1553 |
0.022 |
6.44 |
8400 |
0.1592 |
0.1590 |
0.0218 |
6.9 |
9000 |
0.1431 |
0.1458 |
0.0154 |
7.36 |
9600 |
0.1514 |
0.1366 |
0.0141 |
7.82 |
10200 |
0.1540 |
0.1383 |
0.0113 |
8.28 |
10800 |
0.1558 |
0.1391 |
0.0085 |
8.74 |
11400 |
0.1612 |
0.1356 |
0.0072 |
9.2 |
12000 |
0.1697 |
0.1289 |
0.0046 |
9.66 |
12600 |
0.1722 |
0.1299 |
框架版本
- Transformers 4.39.3
- Pytorch 2.1.1+cu121
- Datasets 2.16.1
- Tokenizers 0.15.1
📄 许可证
本模型使用 MIT 许可证。