xls-r-uyghur-cv8開源自動語音識別模型 - 精準識別維吾爾語語音

首頁

Xls R Uyghur Cv8

由lucio開發

基於facebook/wav2vec2-xls-r-300m在Common Voice 8維吾爾語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #維吾爾語語音識別 #低資源語言處理 #廣播錄音索引

下載量 24

發布時間 : 3/2/2022

模型概述

該模型是針對維吾爾語優化的自動語音識別(ASR)模型，適用於低精度要求的語音轉文字場景

模型特點

維吾爾語優化

專門針對維吾爾語波斯-阿拉伯字母表優化，移除了標點符號

漸進式學習策略

採用2000步預熱和9400步冷卻的學習率策略，優化訓練效果

低資源適應

在有限數據條件下仍能取得較好識別效果

模型能力

維吾爾語語音識別

廣播錄音轉文字

視頻字幕生成

使用案例

媒體處理

視頻字幕草稿生成

為維吾爾語視頻內容自動生成初步字幕

詞錯誤率30.5%，字符錯誤率5.8%

廣播錄音索引

將維吾爾語廣播內容轉換為可搜索文本

🚀 XLS-R-300M維吾爾語CV8

本模型是基於 facebook/wav2vec2-xls-r-300m 在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - UG數據集上進行微調的版本。它在評估集上取得了以下結果：

損失值：0.2026
字錯率（Wer）：0.3248

✨ 主要特性

語言支持：適用於維吾爾語，其詞彙表由維吾爾語波斯 - 阿拉伯字母的字母組成，且去除了標點符號。
應用場景：可用於一些低保真度的場景，如草稿視頻字幕、錄製廣播的索引等。

📚 詳細文檔

模型描述

關於模型架構的描述，請參考 facebook/wav2vec2-xls-r-300m。

預期用途和限制

此模型預計在以下低保真度用例中具有一定的實用性：

草稿視頻字幕
錄製廣播的索引

該模型不夠可靠，不能用作無障礙目的的即時字幕替代品，並且不應以侵犯Common Voice數據集的任何貢獻者或其他說話者隱私的方式使用。

訓練和評估數據

使用Common Voice官方劃分的 train 和 dev 組合作為訓練數據，官方的 test 劃分作為驗證數據以及最終評估數據。

訓練過程

在維吾爾語CV8示例句子上微調最終的CTC/LM層時，凍結了XLS - R模型的特徵提取層。使用了一個逐步變化的學習率，初始熱身階段為2000步，最大值為0.0001，在剩餘的9400步（100個epoch）中逐漸冷卻至0。

訓練超參數

訓練期間使用了以下超參數：

屬性	詳情
學習率	0.0001
訓練批次大小	16
評估批次大小	8
隨機種子	42
梯度累積步數	4
總訓練批次大小	64
優化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型	線性
學習率調度器熱身步數	2000
訓練輪數	100.0
混合精度訓練	原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.3036	5.32	500	3.2628	1.0
2.9734	10.63	1000	2.5677	0.9980
1.3466	15.95	1500	0.4455	0.6306
1.2424	21.28	2000	0.3603	0.5301
1.1655	26.59	2500	0.3165	0.4740
1.1026	31.91	3000	0.2930	0.4400
1.0655	37.23	3500	0.2675	0.4159
1.0239	42.55	4000	0.2580	0.3913
0.9938	47.87	4500	0.2373	0.3698
0.9655	53.19	5000	0.2379	0.3675
0.9374	58.51	5500	0.2486	0.3795
0.9065	63.83	6000	0.2243	0.3405
0.888	69.15	6500	0.2157	0.3277
0.8646	74.47	7000	0.2103	0.3288
0.8602	79.78	7500	0.2088	0.3238
0.8442	85.11	8000	0.2045	0.3266
0.8335	90.42	8500	0.2038	0.3241
0.8288	95.74	9000	0.2024	0.3280