🚀 wav2vec2-large-xlsr-53-punjabi
本模型是基於Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10在common_voice數據集上進行微調的版本。它在評估集上取得了以下結果:
- 損失:1.2101
- 字錯率(Wer):0.4939
- 字符錯誤率(Cer):0.2238
🚀 快速開始
評估命令
- 在
mozilla-foundation/common_voice_8_0
數據集的test
分割上進行評估:
python eval.py --model_id kingabzpro/wav2vec2-large-xlsr-53-punjabi --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test
帶語言模型的推理
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xlsr-53-punjabi"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "pa-IN", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
✨ 主要特性
- 基於預訓練模型
Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10
進行微調,適用於旁遮普語的自動語音識別任務。
- 在
mozilla-foundation/common_voice_8_0
數據集上進行訓練和評估,具有一定的泛化能力。
📦 安裝指南
文檔中未提及安裝相關內容,若有需要可根據使用的框架(如transformers
、datasets
等)進行安裝,例如使用pip安裝:
pip install transformers datasets torchaudio
💻 使用示例
基礎用法
上述“帶語言模型的推理”部分的代碼即為基礎的使用示例,通過加載模型和處理器,對音頻數據進行重採樣後進行推理,得到轉錄結果。
高級用法
文檔中未提及高級用法相關內容,可根據具體需求對模型進行進一步的調整和優化,例如調整推理時的參數、結合其他模型等。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
mozilla-foundation/common_voice_8_0 |
基礎模型 |
Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10 |
評估指標 |
Wer(字錯率)、Cer(字符錯誤率) |
評估結果
任務 |
數據集 |
評估指標 |
值 |
語音識別 |
Common Voice pa-IN |
Test WER With LM |
36.02 |
語音識別 |
Common Voice pa-IN |
Test CER With LM |
12.81 |
訓練超參數
- 學習率:0.0003
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:線性
- 學習率調度器預熱步數:200
- 訓練輪數:30
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
Wer |
Cer |
11.0563 |
3.7 |
100 |
1.9492 |
0.7123 |
0.3872 |
1.6715 |
7.41 |
200 |
1.3142 |
0.6433 |
0.3086 |
0.9117 |
11.11 |
300 |
1.2733 |
0.5657 |
0.2627 |
0.666 |
14.81 |
400 |
1.2730 |
0.5598 |
0.2534 |
0.4225 |
18.52 |
500 |
1.2548 |
0.5300 |
0.2399 |
0.3209 |
22.22 |
600 |
1.2166 |
0.5229 |
0.2372 |
0.2678 |
25.93 |
700 |
1.1795 |
0.5041 |
0.2276 |
0.2088 |
29.63 |
800 |
1.2101 |
0.4939 |
0.2238 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
📄 許可證
本模型使用Apache-2.0許可證。