Wav2Vec2_xls_r_300m_hi_final開源印地語語音識別模型

Wav2vec2 Xls R 300m Hi Final

由LegolasTheElf開發

基於facebook/wav2vec2-xls-r-300m微調的印地語語音識別模型，在Openslr多語言語料庫和Common Voice 7.0數據集上訓練

下載量 14

發布時間 : 3/2/2022

模型概述

這是一個針對印地語優化的自動語音識別(ASR)模型，適用於將印地語語音轉換為文本的任務

多數據集訓練

結合Openslr多語言語料庫和Common Voice 7.0數據集進行訓練，提高模型泛化能力

低錯誤率

在評估集上達到31.37%的詞錯誤率(WER)和9.72%的字錯誤率(CER)

高效訓練

採用混合精度訓練和梯度累積技術優化訓練效率

印地語語音識別

語音轉文本

長音頻處理

語音轉錄

印地語語音轉寫

將印地語語音內容轉換為文字

在測試集上達到31.37%的詞錯誤率

語音助手

印地語語音指令識別

用於支持印地語的語音助手系統

該模型是基於特定數據集微調的語音識別模型，在評估集上有良好表現，可用於自動語音識別任務。

該模型基於預訓練模型進行微調，能夠在特定數據集上進行自動語音識別任務，並且在評估集上展現出了一定的性能指標。

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）	字符錯誤率（Cer）
0.9821	0.64	400	0.5059	0.4783	0.1573
0.6861	1.28	800	0.4201	0.4247	0.1356
0.585	1.92	1200	0.3797	0.3811	0.1210
0.5193	2.56	1600	0.3577	0.3652	0.1152
0.4583	3.21	2000	0.3422	0.3519	0.1111
0.4282	3.85	2400	0.3261	0.3450	0.1071
0.3951	4.49	2800	0.3201	0.3325	0.1048
0.3619	5.13	3200	0.3167	0.3296	0.1030
0.345	5.77	3600	0.3157	0.3210	0.1013
0.338	6.41	4000	0.3051	0.3143	0.0982
0.3155	7.05	4400	0.3059	0.3154	0.0986
0.3057	7.69	4800	0.3035	0.3137	0.0972

本項目採用 Apache-2.0 許可證。

屬性	詳情
模型類型	基於微調的自動語音識別模型
訓練數據	'Openslr Multilingual and code-switching ASR challenge' 數據集和 'mozilla-foundation/common_voice_7_0' 數據集