🚀 whisper-large-v3-turbo-common_voice_19_0-zh-TW
本模型是基于transformers
库微调的语音识别模型,在繁体中文(台湾)自动语音识别任务上表现出色,能有效将语音转换为文字。
🚀 快速开始
本模型是 openai/whisper-large-v3-turbo 在 JacobLinCool/common_voice_19_0_zh-TW 数据集上的微调版本。它在评估集上取得了以下结果:
- 损失率(Loss):0.1786
- 词错误率(Wer):32.5554
- 字符错误率(Cer):8.6009
- 解码运行时间(Decode Runtime):90.9833
- 词错误率运行时间(Wer Runtime):0.1257
- 字符错误率运行时间(Cer Runtime):0.1534
✨ 主要特性
- 开源易用:这是一个开源的繁体中文(台湾)自动语音识别(ASR)模型,遵循 MIT 许可证,可免费使用。
- 特定语言适配:专为繁体中文设计的免提示 ASR 模型。不过,由于继承了 Whisper 的语言识别(LID)系统,在处理简体中文时性能可能会下降。
📚 详细文档
模型描述
这是一个开源的繁体中文(台湾)自动语音识别(ASR)模型。
预期用途与限制
本模型旨在成为一个免提示的繁体中文 ASR 模型。由于它继承了 Whisper 的语言识别(LID)系统,该系统在同一语言标记(zh
)下支持其他中文语言变体,因此我们预计在转录简体中文时性能可能会下降。
该模型在 MIT 许可证下可免费使用。
训练和评估数据
本模型在 Common Voice Corpus 19.0 Chinese (Taiwan) Subset 上进行训练,该数据集包含约 50k 个训练示例(44 小时)和 5k 个测试示例(5 小时)。这个数据集比 mozilla-foundation/common_voice_16_1 的训练集和验证集(train+validation
)的组合大四倍,后者包含约 12k 个示例。
训练过程
Tensorboard
训练超参数
训练期间使用了以下超参数:
- 学习率(learning_rate):0.0002
- 训练批次大小(train_batch_size):4
- 评估批次大小(eval_batch_size):32
- 随机种子(seed):42
- 梯度累积步数(gradient_accumulation_steps):8
- 总训练批次大小(total_train_batch_size):32
- 优化器:使用 OptimizerNames.ADAMW_TORCH,β值为(0.9, 0.999),ε值为 1e-08,无额外优化器参数
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):50
- 训练步数(training_steps):5000
训练结果
训练损失率 |
轮数 |
步数 |
验证损失率 |
词错误率 |
字符错误率 |
解码运行时间 |
词错误率运行时间 |
字符错误率运行时间 |
无记录 |
0 |
0 |
2.7208 |
76.5011 |
20.4851 |
89.4916 |
0.1213 |
0.1639 |
1.1832 |
0.1 |
500 |
0.1939 |
39.9561 |
10.8721 |
90.0926 |
0.1222 |
0.1555 |
1.5179 |
0.2 |
1000 |
0.1774 |
37.6621 |
9.9322 |
89.8657 |
0.1225 |
0.1545 |
0.6179 |
0.3 |
1500 |
0.1796 |
36.2657 |
9.8325 |
90.2480 |
0.1198 |
0.1573 |
0.3626 |
1.0912 |
2000 |
0.1846 |
36.2258 |
9.7801 |
90.3306 |
0.1196 |
0.1539 |
0.1311 |
1.1912 |
2500 |
0.1776 |
34.8095 |
9.3214 |
90.3124 |
0.1286 |
0.1610 |
0.1263 |
1.2912 |
3000 |
0.1763 |
36.1261 |
9.3563 |
90.4271 |
0.1330 |
0.1650 |
0.2194 |
2.0825 |
3500 |
0.1891 |
34.6898 |
9.3114 |
91.1932 |
0.1320 |
0.1643 |
0.1127 |
2.1825 |
4000 |
0.1838 |
34.0714 |
9.1095 |
90.2416 |
0.1196 |
0.1529 |
0.3792 |
2.2824 |
4500 |
0.1786 |
33.1339 |
8.7679 |
90.9144 |
0.1310 |
0.1550 |
0.0606 |
3.0737 |
5000 |
0.1786 |
32.5554 |
8.6009 |
90.9833 |
0.1257 |
0.1534 |
框架版本
- PEFT 0.13.2
- Transformers 4.46.1
- Pytorch 2.4.0
- Datasets 3.0.2
- Tokenizers 0.20.1
📄 许可证
本模型遵循 MIT 许可证。