wav2vec2-large-xls-r-300m-hi-d3開源模型 - 精準實現印地語語音自動識別

首頁

Wav2vec2 Large Xls R 300m Hi D3

由DrishtiSharma開發

這是一個基於facebook/wav2vec2-xls-r-300m模型在印地語數據集上微調的自動語音識別(ASR)模型，專門用於印地語語音識別任務。

語音識別

Transformers

其他開源協議:Apache-2.0 #印地語語音識別 #高精度WER優化 #Common Voice適配

下載量 22

發布時間 : 3/2/2022

模型概述

該模型是針對印地語優化的自動語音識別模型，在Common Voice 7.0印地語數據集上進行了微調，可用於將印地語語音轉換為文本。

模型特點

印地語優化

專門針對印地語語音識別進行了優化和微調

基於大模型

基於facebook/wav2vec2-xls-r-300m大模型構建

良好性能

在Common Voice 7.0測試集上WER為42.04%，CER為13.87%

模型能力

印地語語音識別

語音轉文本

自動語音識別

使用案例

語音轉錄

印地語語音轉錄

將印地語語音內容轉換為文本

WER 42.04%, CER 13.87%

語音助手

印地語語音助手

用於構建支持印地語的語音助手

🚀 wav2vec2-large-xls-r-300m-hi-d3

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - HI數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它能夠解決自動語音識別任務中的相關問題，為印地語的語音識別提供了有效的解決方案，具有一定的實用價值。

✨ 主要特性

支持印地語的自動語音識別。
基於微調的wav2vec2 - xls - r - 300m模型，在相關數據集上有特定的評估指標表現。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	mozilla - foundation/common_voice_7_0

評估結果

本模型在評估集上取得了以下結果：

損失值（Loss）: 0.7988
詞錯誤率（Wer）: 0.3713

評估命令

在mozilla - foundation/common_voice_8_0的測試分割集上進行評估：

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-d3 --dataset mozilla-foundation/common_voice_7_0 --config hi --split test --log_outputs

在speech - recognition - community - v2/dev_data上進行評估：印地語在speech - recognition - community - v2/dev_data中不可用。

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）: 0.000388
訓練批次大小（train_batch_size）: 16
評估批次大小（eval_batch_size）: 8
隨機種子（seed）: 42
梯度累積步數（gradient_accumulation_steps）: 2
總訓練批次大小（total_train_batch_size）: 32
優化器（optimizer）: Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型（lr_scheduler_type）: 線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）: 750
訓練輪數（num_epochs）: 50
混合精度訓練（mixed_precision_training）: 原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
8.2826	1.36	200	3.5253	1.0
2.7019	2.72	400	1.1744	0.7360
0.7358	4.08	600	0.7781	0.5501
0.4942	5.44	800	0.7590	0.5345
0.4056	6.8	1000	0.6885	0.4776
0.3243	8.16	1200	0.7195	0.4861
0.2785	9.52	1400	0.7473	0.4930
0.2448	10.88	1600	0.7201	0.4574
0.2155	12.24	1800	0.7686	0.4648
0.2039	13.6	2000	0.7440	0.4624
0.1792	14.96	2200	0.7815	0.4658
0.1695	16.33	2400	0.7678	0.4557
0.1598	17.68	2600	0.7468	0.4393
0.1568	19.05	2800	0.7440	0.4422
0.1391	20.41	3000	0.7656	0.4317
0.1283	21.77	3200	0.7892	0.4299
0.1194	23.13	3400	0.7646	0.4192
0.1116	24.49	3600	0.8156	0.4330
0.1111	25.85	3800	0.7661	0.4322
0.1023	27.21	4000	0.7419	0.4276
0.1007	28.57	4200	0.8488	0.4245
0.0925	29.93	4400	0.8062	0.4070
0.0918	31.29	4600	0.8412	0.4218
0.0813	32.65	4800	0.8045	0.4087
0.0805	34.01	5000	0.8411	0.4113
0.0774	35.37	5200	0.7664	0.3943
0.0666	36.73	5400	0.8082	0.3939
0.0655	38.09	5600	0.7948	0.4000
0.0617	39.45	5800	0.8084	0.3932
0.0606	40.81	6000	0.8223	0.3841
0.0569	42.18	6200	0.7892	0.3832
0.0544	43.54	6400	0.8326	0.3834
0.0508	44.89	6600	0.7952	0.3774
0.0492	46.26	6800	0.7923	0.3756
0.0459	47.62	7000	0.7925	0.3701
0.0423	48.98	7200	0.7988	0.3713