xls-r-kyrgiz-cv8開源語音識別模型 - 免費部署精準識別吉爾吉斯語語音

首頁

Xls R Kyrgiz Cv8

由lucio開發

該模型是基於facebook/wav2vec2-xls-r-300m在Common Voice 8.0吉爾吉斯語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #吉爾吉斯語語音識別 #低資源語言處理 #WER優化

下載量 16

發布時間 : 3/2/2022

模型概述

針對吉爾吉斯語優化的語音識別模型，適用於從語音到文本的轉換任務

模型特點

低詞錯誤率

在測試集上達到19.01%的WER（帶語言模型）

多場景適用

針對低保真度語音場景優化，適用於多種實際應用

漸進式學習

採用漸進式學習率調度策略，優化訓練效果

模型能力

吉爾吉斯語語音識別

語音轉文本

音頻內容索引

使用案例

媒體處理

視頻字幕生成

為吉爾吉斯語視頻內容自動生成字幕草稿

WER 19.01%（帶語言模型）

廣播內容索引

對錄製的吉爾吉斯語廣播節目進行內容索引

CER 5.38%（帶語言模型）

🚀 XLS - R - 300M 吉爾吉斯語 CV8

此模型是基於自動語音識別技術的模型，在吉爾吉斯語語音處理方面有一定表現，通過在特定數據集上微調，能為低保真度語音應用場景提供支持。

🚀 快速開始

該模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - KY 數據集上的微調版本。它在驗證集上取得了以下結果：

損失值：0.5497
詞錯誤率（Wer）：0.2945
字符錯誤率（Cer）：0.0791

✨ 主要特性

模型描述

關於模型架構的描述，請參考 facebook/wav2vec2 - xls - r - 300m。模型的詞彙表由去除標點的西裡爾字母組成。 kenlm 語言模型是使用訓練和無效語料庫分割的文本構建的。

預期用途和限制

該模型預計對以下低保真度用例有一定幫助：

草稿視頻字幕
錄製廣播的索引

該模型不夠可靠，不能用作無障礙目的的即時字幕替代品，並且不應以侵犯 Common Voice 數據集的任何貢獻者或任何其他說話者隱私的方式使用。

訓練和評估數據

使用了通用語音官方分割的 train、dev 和 other 的組合作為訓練數據。官方 test 分割的一半用作驗證數據，完整的 test 集用於最終評估。

訓練過程

在對吉爾吉斯語 CV8 示例句子調整最終的 CTC/LM 層時，XLS - R 模型的特徵化層被凍結。使用了斜坡學習率，初始熱身階段為 500 步，最大值為 0.0001，並在剩餘的 8100 步（300 個 epoch）中逐漸冷卻至 0。

訓練超參數

訓練期間使用了以下超參數：

屬性	詳情
學習率	0.0001
訓練批次大小	32
評估批次大小	8
隨機種子	42
梯度累積步數	4
總訓練批次大小	128
優化器	Adam，β=(0.9, 0.999)，ε = 1e - 08
學習率調度器類型	線性
學習率調度器熱身步數	500
訓練輪數	300.0
混合精度訓練	原生 AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）	字符錯誤率（Cer）
3.1079	18.51	500	2.6795	0.9996	0.9825
0.8506	37.04	1000	0.4323	0.3718	0.0961
0.6821	55.55	1500	0.4105	0.3311	0.0878
0.6091	74.07	2000	0.4281	0.3168	0.0851
0.5429	92.58	2500	0.4525	0.3147	0.0842
0.5063	111.11	3000	0.4619	0.3144	0.0839
0.4661	129.62	3500	0.4660	0.3039	0.0818
0.4353	148.15	4000	0.4695	0.3083	0.0820
0.4048	166.65	4500	0.4909	0.3085	0.0824
0.3852	185.18	5000	0.5074	0.3048	0.0812
0.3567	203.69	5500	0.5111	0.3012	0.0810
0.3451	222.22	6000	0.5225	0.2982	0.0804
0.325	240.73	6500	0.5270	0.2955	0.0796
0.3089	259.25	7000	0.5381	0.2929	0.0793
0.2941	277.76	7500	0.5565	0.2923	0.0794
0.2945	296.29	8000	0.5495	0.2951	0.0789