wav2vec2-urdu開源烏爾都語語音識別模型 - 免費實現精準語音轉文字

Wav2vec2 Urdu

由kingabzpro開發

基於wav2vec2架構的烏爾都語自動語音識別模型，在Common Voice數據集上微調

下載量 101

發布時間 : 3/2/2022

模型概述

這是一個針對烏爾都語優化的自動語音識別(ASR)模型，基於Facebook的wav2vec2架構，在Common Voice烏爾都語數據集上進行了微調。

烏爾都語優化

專門針對烏爾都語語音識別任務進行優化

基於wav2vec2架構

採用Facebook強大的wav2vec2架構，具有良好的語音特徵提取能力

小樣本微調

在有限的烏爾都語語音數據(0.58小時)上進行微調

烏爾都語語音識別

語音轉文本

自動語音識別

語音轉錄

烏爾都語語音轉錄

將烏爾都語語音轉換為文本

詞錯誤率57.47%，字符錯誤率32.68%

語音助手

烏爾都語語音指令識別

用於烏爾都語語音助手或控制系統的語音指令識別

本模型是基於 Harveenchadha/vakyansh-wav2vec2-urdu-urm-60 在 common_voice 數據集上進行微調的版本。它在評估集上取得了以下成果，能夠有效提升烏爾都語語音識別的準確性，為烏爾都語語音處理相關應用提供有力支持。

本模型是 Harveenchadha/vakyansh-wav2vec2-urdu-urm-60 在 common_voice 數據集上的微調版本。它在評估集上取得了以下結果：

訓練和驗證數據集時長為 0.58 小時。由於數據量較少，很難訓練出理想的模型，因此決定採用 vakyansh-wav2vec2-urdu-urm-60 檢查點對 wav2vec2 模型進行微調。

由於樣本數量較少，在 Harveenchadha/vakyansh-wav2vec2-urdu-urm-60 基礎上進行訓練。

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）	字符錯誤率（Cer）
4.3054	16.67	50	9.0055	0.8306	0.4869
2.0629	33.33	100	9.5849	0.6061	0.3414
0.8966	50.0	150	4.8686	0.6052	0.3426
0.4197	66.67	200	12.3261	0.5817	0.3370
0.294	83.33	250	11.9653	0.5712	0.3328
0.2329	100.0	300	7.6846	0.5747	0.3268