wav2vec2-large-xls-r-300m-hi-cv8開源模型 - 免費實現印地語自動語音識別

首頁

Wav2vec2 Large Xls R 300m Hi Cv8

由DrishtiSharma開發

這是一個基於facebook/wav2vec2-xls-r-300m模型在印地語Common Voice 8數據集上微調的自動語音識別(ASR)模型。

語音識別

Transformers

其他開源協議:Apache-2.0 #印地語語音識別 #低詞錯誤率 #多場景適配

下載量 25

發布時間 : 3/2/2022

模型概述

該模型專門用於印地語語音識別任務，在Common Voice 8測試集上取得了36.29%的詞錯誤率(WER)和11.93%的字錯誤率(CER)。

模型特點

印地語語音識別

專門針對印地語優化的語音識別模型

基於大規模預訓練模型

基於facebook的wav2vec2-xls-r-300m模型微調，具有強大的語音特徵提取能力

在Common Voice數據集上表現良好

在Common Voice 8測試集上取得了36.29%的詞錯誤率

模型能力

印地語語音轉文本

長語音識別

對話語音處理

使用案例

語音轉錄

印地語語音轉文字

將印地語語音內容轉換為文字

詞錯誤率36.29%，字錯誤率11.93%

語音助手

印地語語音助手

用於開發支持印地語的語音助手

🚀 wav2vec2-large-xls-r-300m-hi-cv8

該模型是基於MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HI數據集對facebook/wav2vec2-xls-r-300m進行微調後的版本。它在自動語音識別任務中表現出色，能有效處理印地語語音數據，為語音識別領域提供了強大的工具。

✨ 主要特性

多任務支持：支持自動語音識別任務。
數據集適配：基於MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HI數據集進行微調，適用於印地語語音識別。
評估指標豐富：提供了測試字錯誤率（WER）和測試字符錯誤率（CER）等評估指標。

📚 詳細文檔

評估結果

該模型在評估集上取得了以下結果：

損失值（Loss）：0.6510
字錯誤率（Wer）：0.3179

評估命令

在mozilla-foundation/common_voice_8_0測試分割集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8 --dataset mozilla-foundation/common_voice_8_0 --config hi --split test --log_outputs

在speech-recognition-community-v2/dev_data上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8 --dataset speech-recognition-community-v2/dev_data --config hi --split validation --chunk_length_s 10 --stride_length_s 1

⚠️ 重要提示

印地語在speech-recognition-community-v2/dev_data數據集中未找到。

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
訓練批次大小（train_batch_size）	16
評估批次大小（eval_batch_size）	8
隨機種子（seed）	42
梯度累積步數（gradient_accumulation_steps）	2
總訓練批次大小（total_train_batch_size）	32
優化器（optimizer）	Adam（betas=(0.9,0.999)，epsilon=1e-08）
學習率調度器類型（lr_scheduler_type）	線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）	2000
訓練輪數（num_epochs）	50
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）

訓練結果

訓練損失（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失（Validation Loss）	字錯誤率（Wer）
12.5576	1.04	200	6.6594	1.0
4.4069	2.07	400	3.6011	1.0
3.4273	3.11	600	3.3370	1.0
2.1108	4.15	800	1.0641	0.6562
0.8817	5.18	1000	0.7178	0.5172
0.6508	6.22	1200	0.6612	0.4839
0.5524	7.25	1400	0.6458	0.4889
0.4992	8.29	1600	0.5791	0.4382
0.4669	9.33	1800	0.6039	0.4352
0.4441	10.36	2000	0.6276	0.4297
0.4172	11.4	2200	0.6183	0.4474
0.3872	12.44	2400	0.5886	0.4231
0.3692	13.47	2600	0.6448	0.4399
0.3385	14.51	2800	0.6344	0.4075
0.3246	15.54	3000	0.5896	0.4087
0.3026	16.58	3200	0.6158	0.4016
0.284	17.62	3400	0.6038	0.3906
0.2682	18.65	3600	0.6165	0.3900
0.2577	19.69	3800	0.5754	0.3805
0.2509	20.73	4000	0.6028	0.3925
0.2426	21.76	4200	0.6335	0.4138
0.2346	22.8	4400	0.6128	0.3870
0.2205	23.83	4600	0.6223	0.3831
0.2104	24.87	4800	0.6122	0.3781
0.1992	25.91	5000	0.6467	0.3792
0.1916	26.94	5200	0.6277	0.3636
0.1835	27.98	5400	0.6317	0.3773
0.1776	29.02	5600	0.6124	0.3614
0.1751	30.05	5800	0.6475	0.3628
0.1662	31.09	6000	0.6266	0.3504
0.1584	32.12	6200	0.6347	0.3532
0.1494	33.16	6400	0.6636	0.3491
0.1457	34.2	6600	0.6334	0.3507
0.1427	35.23	6800	0.6397	0.3442
0.1397	36.27	7000	0.6468	0.3496
0.1283	37.31	7200	0.6291	0.3416
0.1255	38.34	7400	0.6652	0.3461
0.1195	39.38	7600	0.6587	0.3342
0.1169	40.41	7800	0.6478	0.3319
0.1126	41.45	8000	0.6280	0.3291
0.1112	42.49	8200	0.6434	0.3290
0.1069	43.52	8400	0.6542	0.3268
0.1027	44.56	8600	0.6536	0.3239
0.0993	45.6	8800	0.6622	0.3257
0.0973	46.63	9000	0.6572	0.3192
0.0911	47.67	9200	0.6522	0.3175
0.0897	48.7	9400	0.6521	0.3200
0.0905	49.74	9600	0.6510	0.3179