wav2vec2-large-xls-r-300m-hi-wx1開源語音識別模型

首頁

Wav2vec2 Large Xls R 300m Hi Wx1

由DrishtiSharma開發

這是一個基於Facebook的wav2vec2-xls-r-300m模型在印地語Common Voice 7.0數據集上微調的自動語音識別(ASR)模型。

語音識別

Transformers

其他開源協議:Apache-2.0 #印地語語音識別 #低詞錯誤率 #Common Voice數據集

下載量 18

發布時間 : 3/2/2022

模型概述

該模型專門用於印地語語音識別任務，在Common Voice 7.0印地語數據集上進行了優化訓練。

模型特點

印地語語音識別

專門針對印地語優化的語音識別模型

基於大規模預訓練模型

基於Facebook的wav2vec2-xls-r-300m模型微調

相對輕量級

3億參數的模型規模，在保持性能的同時相對輕量

模型能力

印地語語音轉文本

語音識別

語音轉錄

使用案例

語音轉錄

印地語語音轉錄

將印地語語音內容轉換為文本

在Common Voice 7.0測試集上WER為37.2%，CER為11.76%

語音助手

印地語語音助手

為印地語語音助手提供語音識別能力

🚀 wav2vec2-large-xls-r-300m-hi-wx1

該模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - HI數據集對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在自動語音識別任務中表現出色，能有效處理印地語語音數據。

🚀 快速開始

本模型可用於自動語音識別任務，以下是評估該模型的相關信息。

評估命令

在mozilla - foundation/common_voice_8_0測試集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-wx1 --dataset mozilla-foundation/common_voice_7_0 --config hi --split test --log_outputs

在speech - recognition - community - v2/dev_data上進行評估暫無可用評估命令。

✨ 主要特性

微調模型：基於facebook/wav2vec2 - xls - r - 300m在特定數據集上微調，更適配印地語語音識別任務。
多指標評估：使用字錯率（WER）和字符錯誤率（CER）等指標進行評估，全面衡量模型性能。

📚 詳細文檔

評估結果

該模型在評估集上取得了以下結果：

損失值：0.6552
字錯率（WER）：0.3200

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率	0.00024
訓練批次大小	16
評估批次大小	8
隨機種子	42
梯度累積步數	2
總訓練批次大小	32
優化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型	線性
學習率調度器熱身步數	1800
訓練輪數	50
混合精度訓練	原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（WER）
12.2663	1.36	200	5.9245	1.0
4.1856	2.72	400	3.4968	1.0
3.3908	4.08	600	2.9970	1.0
1.5444	5.44	800	0.9071	0.6139
0.7237	6.8	1000	0.6508	0.4862
0.5323	8.16	1200	0.6217	0.4647
0.4426	9.52	1400	0.5785	0.4288
0.3933	10.88	1600	0.5935	0.4217
0.3532	12.24	1800	0.6358	0.4465
0.3319	13.6	2000	0.5789	0.4118
0.2877	14.96	2200	0.6163	0.4056
0.2663	16.33	2400	0.6176	0.3893
0.2511	17.68	2600	0.6065	0.3999
0.2275	19.05	2800	0.6183	0.3842
0.2098	20.41	3000	0.6486	0.3864
0.1943	21.77	3200	0.6365	0.3885
0.1877	23.13	3400	0.6013	0.3677
0.1679	24.49	3600	0.6451	0.3795
0.1667	25.85	3800	0.6410	0.3635
0.1514	27.21	4000	0.6000	0.3577
0.1453	28.57	4200	0.6020	0.3518
0.134	29.93	4400	0.6531	0.3517
0.1354	31.29	4600	0.6874	0.3578
0.1224	32.65	4800	0.6519	0.3492
0.1199	34.01	5000	0.6553	0.3490
0.1077	35.37	5200	0.6621	0.3429
0.0997	36.73	5400	0.6641	0.3413
0.0964	38.09	5600	0.6722	0.3385
0.0931	39.45	5800	0.6365	0.3363
0.0944	40.81	6000	0.6454	0.3326
0.0862	42.18	6200	0.6497	0.3256
0.0848	43.54	6400	0.6599	0.3226
0.0793	44.89	6600	0.6625	0.3232
0.076	46.26	6800	0.6463	0.3186
0.0749	47.62	7000	0.6559	0.3225
0.0663	48.98	7200	0.6552	0.3200