xls-r-uzbek-cv8開源自動語音識別模型 - 精準識別烏茲別克語語音內容

首頁

Xls R Uzbek Cv8

由lucio開發

基於facebook/wav2vec2-xls-r-300m在烏茲別克語Common Voice 8數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #烏茲別克語語音識別 #低資源語言優化 #廣播錄音索引

下載量 2,860

發布時間 : 3/2/2022

模型概述

該模型是針對烏茲別克語的自動語音識別系統，在Common Voice 8數據集上訓練，適用於低精度語音轉文字場景

模型特點

烏茲別克語專用模型

專門針對烏茲別克語優化的語音識別模型

低資源優化

使用Common Voice數據集的50%訓練數據實現良好效果

語言模型增強

結合kenlm語言模型顯著提升識別準確率

特殊字符處理

正確處理烏茲別克語中的特殊字符<‘>和<’>

模型能力

烏茲別克語語音識別

低精度語音轉文字

廣播錄音索引

使用案例

媒體處理

視頻字幕生成

為烏茲別克語視頻生成初步字幕草稿

廣播錄音索引

對烏茲別克語廣播內容進行自動索引

🚀 XLS-R-300M Uzbek CV8

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - UZ數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在驗證集上取得了以下成果：

損失率：0.3063
詞錯誤率（Wer）：0.3852
字符錯誤率（Cer）：0.0777

✨ 主要特性

標籤信息：具備自動語音識別、從訓練器生成、HF語音識別排行榜、基於Mozilla基金會Common Voice 8.0數據集、魯棒語音事件等相關標籤。
數據集：使用了Mozilla基金會的Common Voice 8.0數據集。
基礎模型：基於facebook的wav2vec2 - xls - r - 300m模型。
評估指標：在測試集上，使用語言模型（LM）時，詞錯誤率（Wer）為15.065，字符錯誤率（Cer）為3.077；不使用語言模型時，詞錯誤率為32.88，字符錯誤率為6.53。

📚 詳細文檔

模型描述

關於模型架構的描述，請參考facebook/wav2vec2 - xls - r - 300m。

模型詞彙表由烏茲別克語現代拉丁字母組成，且去除了標點符號。需要注意的是，字符 <‘> 和 <’> 不算作標點符號，因為 <‘> 用於修飾 <o> 和 <g>，而 <’> 表示聲門塞音或長元音。

解碼器使用了基於Common Voice文本構建的kenlm語言模型。

預期用途與侷限性

該模型預計在低保真度用例中具有一定的實用性，例如：

草稿視頻字幕
錄製廣播的索引

該模型不夠可靠，不能作為無障礙即時字幕的替代品，並且不應以侵犯Common Voice數據集貢獻者或其他說話者隱私的方式使用。

訓練和評估數據

訓練數據：使用了train公共語音官方分割集的50%。
驗證數據：使用了官方dev分割集的50%。
最終評估數據：無語言模型的模型在完整的test集上進行最終評估，而有語言模型的模型僅在test集中的500個示例上進行評估。

kenlm語言模型是從訓練集和其他數據集分割的目標句子編譯而來的。

訓練超參數

訓練期間使用了以下超參數：

學習率：3e - 05
訓練批次大小：32
評估批次大小：8
隨機種子：42
梯度累積步數：4
總訓練批次大小：128
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：100.0
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失率	輪數	步數	驗證損失率	詞錯誤率（Wer）	字符錯誤率（Cer）
3.1401	3.25	500	3.1146	1.0	1.0
2.7484	6.49	1000	2.2842	1.0065	0.7069
1.0899	9.74	1500	0.5414	0.6125	0.1351
0.9465	12.99	2000	0.4566	0.5635	0.1223
0.8771	16.23	2500	0.4212	0.5366	0.1161
0.8346	19.48	3000	0.3994	0.5144	0.1102
0.8127	22.73	3500	0.3819	0.4944	0.1051
0.7833	25.97	4000	0.3705	0.4798	0.1011
0.7603	29.22	4500	0.3661	0.4704	0.0992
0.7424	32.47	5000	0.3529	0.4577	0.0957
0.7251	35.71	5500	0.3410	0.4473	0.0928
0.7106	38.96	6000	0.3401	0.4428	0.0919
0.7027	42.21	6500	0.3355	0.4353	0.0905
0.6927	45.45	7000	0.3308	0.4296	0.0885
0.6828	48.7	7500	0.3246	0.4204	0.0863
0.6706	51.95	8000	0.3250	0.4233	0.0868
0.6629	55.19	8500	0.3264	0.4159	0.0849
0.6556	58.44	9000	0.3213	0.4100	0.0835
0.6484	61.69	9500	0.3182	0.4124	0.0837
0.6407	64.93	10000	0.3171	0.4050	0.0825
0.6375	68.18	10500	0.3150	0.4039	0.0822
0.6363	71.43	11000	0.3129	0.3991	0.0810
0.6307	74.67	11500	0.3114	0.3986	0.0807
0.6232	77.92	12000	0.3103	0.3895	0.0790
0.6216	81.17	12500	0.3086	0.3891	0.0790
0.6174	84.41	13000	0.3082	0.3881	0.0785
0.6196	87.66	13500	0.3059	0.3875	0.0782
0.6174	90.91	14000	0.3084	0.3862	0.0780
0.6169	94.16	14500	0.3070	0.3860	0.0779
0.6166	97.4	15000	0.3066	0.3855	0.0778