🚀 wav2vec2-large-xlsr-53-punjabi
本模型是基于Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10在common_voice数据集上进行微调的版本。它在评估集上取得了以下结果:
- 损失:1.2101
- 字错率(Wer):0.4939
- 字符错误率(Cer):0.2238
🚀 快速开始
评估命令
- 在
mozilla-foundation/common_voice_8_0
数据集的test
分割上进行评估:
python eval.py --model_id kingabzpro/wav2vec2-large-xlsr-53-punjabi --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test
带语言模型的推理
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xlsr-53-punjabi"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "pa-IN", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
✨ 主要特性
- 基于预训练模型
Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10
进行微调,适用于旁遮普语的自动语音识别任务。
- 在
mozilla-foundation/common_voice_8_0
数据集上进行训练和评估,具有一定的泛化能力。
📦 安装指南
文档中未提及安装相关内容,若有需要可根据使用的框架(如transformers
、datasets
等)进行安装,例如使用pip安装:
pip install transformers datasets torchaudio
💻 使用示例
基础用法
上述“带语言模型的推理”部分的代码即为基础的使用示例,通过加载模型和处理器,对音频数据进行重采样后进行推理,得到转录结果。
高级用法
文档中未提及高级用法相关内容,可根据具体需求对模型进行进一步的调整和优化,例如调整推理时的参数、结合其他模型等。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
mozilla-foundation/common_voice_8_0 |
基础模型 |
Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10 |
评估指标 |
Wer(字错率)、Cer(字符错误率) |
评估结果
任务 |
数据集 |
评估指标 |
值 |
语音识别 |
Common Voice pa-IN |
Test WER With LM |
36.02 |
语音识别 |
Common Voice pa-IN |
Test CER With LM |
12.81 |
训练超参数
- 学习率:0.0003
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:32
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 学习率调度器类型:线性
- 学习率调度器预热步数:200
- 训练轮数:30
- 混合精度训练:Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
Wer |
Cer |
11.0563 |
3.7 |
100 |
1.9492 |
0.7123 |
0.3872 |
1.6715 |
7.41 |
200 |
1.3142 |
0.6433 |
0.3086 |
0.9117 |
11.11 |
300 |
1.2733 |
0.5657 |
0.2627 |
0.666 |
14.81 |
400 |
1.2730 |
0.5598 |
0.2534 |
0.4225 |
18.52 |
500 |
1.2548 |
0.5300 |
0.2399 |
0.3209 |
22.22 |
600 |
1.2166 |
0.5229 |
0.2372 |
0.2678 |
25.93 |
700 |
1.1795 |
0.5041 |
0.2276 |
0.2088 |
29.63 |
800 |
1.2101 |
0.4939 |
0.2238 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
📄 许可证
本模型使用Apache-2.0许可证。