wav2vec2-large-xls-r-300m-kk-with-LM開源模型 - 支持語言增強的哈薩克語語音識別

首頁

Wav2vec2 Large Xls R 300m Kk With LM

由DrishtiSharma開發

該模型是基於facebook/wav2vec2-xls-r-300m在哈薩克語(KK)數據集上微調的自動語音識別(ASR)模型，支持語言模型(LM)增強

語音識別

Transformers

其他開源協議:Apache-2.0 #哈薩克語語音識別 #低詞錯誤率 #多場景適配

下載量 22

發布時間 : 3/2/2022

模型概述

這是一個針對哈薩克語優化的自動語音識別模型，在Common Voice 8.0數據集上訓練，可用於將哈薩克語語音轉換為文本

模型特點

語言模型增強

模型結合了語言模型(LM)進行後處理，提高了識別準確率

多數據集評估

在Common Voice和魯棒語音事件等多個數據集上進行評估

大規模預訓練

基於300M參數的wav2vec2-XLS-R模型微調，具有強大的語音特徵提取能力

模型能力

哈薩克語語音識別

語音轉文本

支持語言模型後處理

使用案例

語音轉錄

哈薩克語語音轉錄

將哈薩克語語音內容轉換為文本

在Common Voice 8.0測試集上WER為41.7%

語音助手

哈薩克語語音指令識別

用於哈薩克語語音助手或控制系統的語音指令識別

🚀 wav2vec2-large-xls-r-300m-kk-with-LM 語音識別模型

本模型是一個用於自動語音識別的模型，基於特定數據集進行微調，在評估集上取得了一定的識別效果，可用於哈薩克語的語音識別任務。

📚 詳細文檔

模型信息

屬性	詳情
語言	哈薩克語（kk）
許可證	Apache-2.0
標籤	自動語音識別、基於 Mozilla 基金會的 Common Voice 8.0 數據集、由訓練器生成、哈薩克語、魯棒語音事件、對話模型、HF 自動語音識別排行榜
數據集	mozilla-foundation/common_voice_8_0
模型名稱	wav2vec2-large-xls-r-300m-kk-with-LM

評估結果

本模型在不同數據集上的評估結果如下：

任務	數據集	指標	值
自動語音識別	Common Voice 8（ru）	測試詞錯誤率（WER）	0.4355
自動語音識別	Common Voice 8（ru）	測試字符錯誤率（CER）	0.10469915859660263
自動語音識別	Common Voice 8（ru，+LM）	測試詞錯誤率（WER）	0.417
自動語音識別	Common Voice 8（ru，+LM）	測試字符錯誤率（CER）	0.10319098269566598
自動語音識別	Robust Speech Event - Dev Data（kk）	測試詞錯誤率（WER）	NA
自動語音識別	Robust Speech Event - Dev Data（kk）	測試字符錯誤率（CER）	NA
自動語音識別	Common Voice 8.0（kk）	測試詞錯誤率（WER）	41.7
自動語音識別	Robust Speech Event - Test Data（kk）	測試詞錯誤率（WER）	67.09

評估命令

在 mozilla-foundation/common_voice_8_0 測試集上進行評估：

python eval.py  --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-kk-with-LM  --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs

在 speech-recognition-community-v2/dev_data 上評估：

⚠️ 重要提示

哈薩克語在 speech-recognition-community-v2/dev_data 中不可用。

訓練超參數

訓練過程中使用的超參數如下：

學習率：0.000222
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：1000
訓練輪數：150.0
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
9.6799	9.09	200	3.6119	1.0
3.1332	18.18	400	2.5352	1.005
1.0465	27.27	600	0.6169	0.682
0.3452	36.36	800	0.6572	0.607
0.2575	45.44	1000	0.6527	0.578
0.2088	54.53	1200	0.6828	0.551
0.158	63.62	1400	0.7074	0.5575
0.1309	72.71	1600	0.6523	0.5595
0.1074	81.8	1800	0.7262	0.5415
0.087	90.89	2000	0.7199	0.521
0.0711	99.98	2200	0.7113	0.523
0.0601	109.09	2400	0.6863	0.496
0.0451	118.18	2600	0.6998	0.483
0.0378	127.27	2800	0.6971	0.4615
0.0319	136.36	3000	0.7119	0.4475
0.0305	145.44	3200	0.7181	0.459

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

評估命令示例

!python eval.py \
    --model_id DrishtiSharma/wav2vec2-xls-r-300m-kk-n2 \
    --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs