🚀 whisper-small-uz-en-ru-lang-id
本模型是基于openai/whisper-small在 "mozilla-foundation/common_voice_16_1"(乌兹别克语/英语/俄语)数据集上进行微调的版本。它在训练过程中的验证集上取得了以下成绩:
- 损失率:0.2065
- 准确率:0.9747
- F1值:0.9746
在测试(评估)数据集上的准确率为92.4%。
🚀 快速开始
本模型是在特定数据集上对基础模型进行微调得到的,可用于音频分类任务。
📦 模型信息
属性 |
详情 |
模型类型 |
音频分类模型 |
基础模型 |
openai/whisper-small |
训练数据 |
mozilla-foundation/common_voice_16_1(乌兹别克语、英语、俄语) |
指标 |
准确率、F1值 |
支持语言 |
乌兹别克语、英语、俄语 |
💻 使用示例
基础用法
common_voice_train_uz = load_dataset("mozilla-foundation/common_voice_16_1", "uz", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_train_ru = load_dataset("mozilla-foundation/common_voice_16_1", "ru", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_train_en = load_dataset("mozilla-foundation/common_voice_16_1", "en", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_uz = load_dataset("mozilla-foundation/common_voice_16_1", "uz", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_ru = load_dataset("mozilla-foundation/common_voice_16_1", "ru", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_en = load_dataset("mozilla-foundation/common_voice_16_1", "en", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
...
common_voice['train'] = concatenate_datasets([common_voice_train_uz, common_voice_train_ru, common_voice_train_en])
🔧 技术细节
训练过程
使用了Transformers库中的Trainer进行训练。训练和评估过程的详细信息记录在以下GitHub仓库的Jupyter笔记本中:
https://github.com/fitlemon/whisper-small-uz-en-ru-lang-id
训练超参数
以下是训练过程中使用的超参数:
- 学习率:3e-05
- 训练批次大小:2
- 评估批次大小:2
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:8
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 学习率调度器类型:线性
- 学习率调度器热身比例:0.1
- 训练步数:9000
- 混合精度训练:Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
F1值 |
0.0252 |
1 |
3000 |
0.3089 |
0.953 |
0.9525 |
0.0357 |
2 |
6000 |
0.1732 |
0.964 |
0.9637 |
0.0 |
3 |
9000 |
0.2065 |
0.9747 |
0.9746 |
框架版本
- Transformers 4.38.2
- Pytorch 2.2.1+cu121
- Datasets 2.17.1
- Tokenizers 0.15.2
📄 许可证
本模型采用Apache-2.0许可证。