🚀 Whisper Small Uzbek
这个模型是 openai/whisper-small 在 Common Voice 17.0 数据集上的微调版本。它在评估集上取得了以下成果:
- 损失值:0.3776
- 字错率(Wer):35.8660
🚀 快速开始
此模型为语音识别任务提供了预训练的能力,可基于 transformers
库快速调用。以下是使用该模型进行语音识别的简单示例:
from transformers import WhisperForConditionalGeneration, WhisperProcessor
import torch
from datasets import load_dataset
model = WhisperForConditionalGeneration.from_pretrained("your_model_path")
processor = WhisperProcessor.from_pretrained("your_model_path")
ds = load_dataset("mozilla-foundation/common_voice_17_0", "uz", split="test", streaming=True)
sample = next(iter(ds))
input_features = processor(sample["audio"]["array"], sampling_rate=sample["audio"]["sampling_rate"], return_tensors="pt").input_features
with torch.no_grad():
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)
✨ 主要特性
- 微调基础模型:基于
openai/whisper-small
模型进行微调,在乌兹别克语语音识别任务上有更好的表现。
- 多指标评估:使用损失值和字错率(Wer)对模型进行评估,确保模型性能。
📦 安装指南
若要使用此模型,你需要安装 transformers
库及相关依赖:
pip install transformers datasets torch tokenizers
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):2e - 05
- 训练批次大小(train_batch_size):16
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):42
- 优化器(optimizer):使用
adamw_torch
,其中 betas=(0.9, 0.999)
,epsilon=1e - 08
,无额外优化器参数
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):1500
- 训练步数(training_steps):5500
- 混合精度训练(mixed_precision_training):原生自动混合精度(Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
字错率(Wer) |
0.913 |
0.2 |
500 |
0.8213 |
62.5843 |
0.6404 |
0.4 |
1000 |
0.6082 |
51.8716 |
0.5734 |
0.6 |
1500 |
0.5458 |
48.0513 |
0.5051 |
0.8 |
2000 |
0.4846 |
43.8649 |
0.4407 |
1.0 |
2500 |
0.4483 |
41.3901 |
0.3436 |
1.2 |
3000 |
0.4321 |
41.0277 |
0.3092 |
1.4 |
3500 |
0.4184 |
40.1141 |
0.2861 |
1.6 |
4000 |
0.4091 |
39.9753 |
0.289 |
1.8 |
4500 |
0.3811 |
36.7950 |
0.2816 |
2.0 |
5000 |
0.3730 |
36.7102 |
0.1547 |
2.2 |
5500 |
0.3776 |
35.8660 |
框架版本
Transformers
:4.47.0
Pytorch
:2.1.1+cu121
Datasets
:3.2.0
Tokenizers
:0.21.0
📄 许可证
本模型采用 Apache 2.0 许可证。