wav2vec2-large-xlsr-53-punjabi開源模型 - 免費實現旁遮普語自動語音識別

首頁

Wav2vec2 Large Xlsr 53 Punjabi

由kingabzpro開發

這是一個基於Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10在Common Voice數據集上微調的旁遮普語自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #旁遮普語語音識別 #低詞錯誤率 #多方言支持

下載量 189

發布時間 : 3/2/2022

模型概述

該模型用於旁遮普語的自動語音識別任務，能夠將旁遮普語語音轉換為文本

模型特點

高精度語音識別

在Common Voice pa-IN測試集上取得了36.02的WER和12.81的CER

基於大模型微調

基於Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10模型微調，繼承了強大的語音特徵提取能力

支持語言模型集成

支持與語言模型結合使用，提高識別準確率

模型能力

旁遮普語語音識別

語音轉文本

支持16kHz採樣率音頻處理

使用案例

語音轉錄

旁遮普語語音轉錄

將旁遮普語語音內容轉換為文本

在測試集上達到36.02 WER

語音助手

旁遮普語語音助手

用於開發支持旁遮普語的語音助手應用

🚀 wav2vec2-large-xlsr-53-punjabi

本模型是基於Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10在common_voice數據集上進行微調的版本。它在評估集上取得了以下結果：

損失：1.2101
字錯率（Wer）：0.4939
字符錯誤率（Cer）：0.2238

🚀 快速開始

評估命令

在mozilla-foundation/common_voice_8_0數據集的test分割上進行評估：

python eval.py --model_id kingabzpro/wav2vec2-large-xlsr-53-punjabi --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test

帶語言模型的推理

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xlsr-53-punjabi"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "pa-IN", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text

✨ 主要特性

基於預訓練模型Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10進行微調，適用於旁遮普語的自動語音識別任務。
在mozilla-foundation/common_voice_8_0數據集上進行訓練和評估，具有一定的泛化能力。

📦 安裝指南

文檔中未提及安裝相關內容，若有需要可根據使用的框架（如transformers、datasets等）進行安裝，例如使用pip安裝：

pip install transformers datasets torchaudio

💻 使用示例

基礎用法

上述“帶語言模型的推理”部分的代碼即為基礎的使用示例，通過加載模型和處理器，對音頻數據進行重採樣後進行推理，得到轉錄結果。

高級用法

文檔中未提及高級用法相關內容，可根據具體需求對模型進行進一步的調整和優化，例如調整推理時的參數、結合其他模型等。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	mozilla-foundation/common_voice_8_0
基礎模型	Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10
評估指標	Wer（字錯率）、Cer（字符錯誤率）

評估結果

任務	數據集	評估指標	值
語音識別	Common Voice pa-IN	Test WER With LM	36.02
語音識別	Common Voice pa-IN	Test CER With LM	12.81

訓練超參數

學習率：0.0003
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
學習率調度器預熱步數：200
訓練輪數：30
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	Wer	Cer
11.0563	3.7	100	1.9492	0.7123	0.3872
1.6715	7.41	200	1.3142	0.6433	0.3086
0.9117	11.11	300	1.2733	0.5657	0.2627
0.666	14.81	400	1.2730	0.5598	0.2534
0.4225	18.52	500	1.2548	0.5300	0.2399
0.3209	22.22	600	1.2166	0.5229	0.2372
0.2678	25.93	700	1.1795	0.5041	0.2276
0.2088	29.63	800	1.2101	0.4939	0.2238