wav2vec2-large-xls-r-300m-urdu-cv8-200epochs開源模型

Wav2vec2 Large Xls R 300m Urdu Cv8 200epochs

由omar47開發

基於通用語音數據集訓練的烏爾都語語音識別模型，採用wav2vec 2.0架構

下載量 20

發布時間 : 4/20/2022

模型概述

該模型是基於Facebook的wav2vec 2.0架構訓練的大型語音識別模型，專門針對烏爾都語進行優化。模型在通用語音數據集上訓練了200個epoch，具有3億參數規模。

大規模預訓練

基於3億參數的大規模wav2vec 2.0架構，具有強大的語音特徵提取能力

烏爾都語優化

專門針對烏爾都語進行訓練和優化，適合烏爾都語語音識別任務

長時訓練

在通用語音數據集上進行了200個epoch的充分訓練

烏爾都語語音識別

語音轉文本

自動語音轉錄

語音轉錄

烏爾都語語音轉錄

將烏爾都語語音內容轉換為文本

詞錯誤率(WER)為0.7723

語音助手

烏爾都語語音助手

為烏爾都語用戶提供語音交互能力

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.3204	1.27	32	1.3200	0.7723
0.3021	2.55	64	1.3200	0.7723
0.3153	3.82	96	1.3200	0.7723
0.3239	5.12	128	1.3200	0.7723
0.3153	6.39	160	1.3200	0.7723
0.3202	7.67	192	1.3200	0.7723
0.3126	8.94	224	1.3200	0.7723
0.3183	10.24	256	1.3200	0.7723
0.3135	11.51	288	1.3200	0.7723
0.3137	12.78	320	1.3200	0.7723