wav2vec2-large-xls-r-300m-hi-cv8-b2開源ASR模型

首頁

Wav2vec2 Large Xls R 300m Hi Cv8 B2

由DrishtiSharma開發

這是一個基於Facebook的wav2vec2-xls-r-300m模型在印地語Common Voice 8.0數據集上微調的自動語音識別(ASR)模型。

語音識別

Transformers

其他開源協議:Apache-2.0 #印地語語音識別 #低詞錯誤率 #Common Voice數據集

下載量 22

發布時間 : 3/2/2022

模型概述

該模型專門用於印地語的自動語音識別任務，在Common Voice 8.0數據集上訓練，取得了較低的詞錯誤率(WER)。

模型特點

高性能印地語識別

在Common Voice 8.0印地語測試集上取得了38.9%的詞錯誤率(WER)和13.0%的字錯誤率(CER)

基於XLS-R架構

使用Facebook的wav2vec2-XLS-R-300m作為基礎模型，具有強大的語音特徵提取能力

精細調優

經過35輪訓練，使用線性學習率調度和預熱策略優化模型性能

模型能力

印地語語音識別

語音轉文本

魯棒語音事件檢測

使用案例

語音轉錄

印地語語音轉文本

將印地語語音內容轉換為文本

在測試集上達到38.9% WER

語音助手

印地語語音命令識別

識別和理解印地語語音命令

🚀 wav2vec2-large-xls-r-300m-hi-cv8-b2

本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - HI 數據集上的微調版本。它在自動語音識別任務中表現出色，能夠有效處理印地語語音識別問題，為相關語音應用提供了有力支持。

✨ 主要特性

多語言支持：支持印地語（hi）的自動語音識別。
數據集適配：基於 mozilla-foundation/common_voice_8_0 數據集進行訓練和評估。
指標評估：使用詞錯誤率（WER）和字符錯誤率（CER）進行模型評估。

📦 安裝指南

文檔未提供安裝步驟，暫不展示。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

評估結果

該模型在評估集上取得了以下結果：

損失：0.7322
詞錯誤率（Wer）：0.3469

評估命令

在 mozilla-foundation/common_voice_8_0 測試分割集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8-b2 --dataset mozilla-foundation/common_voice_8_0 --config hi --split test --log_outputs

在 speech-recognition-community-v2/dev_data 上進行評估印地語在 speech-recognition-community-v2/dev_data 中不可用。

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率	0.00025
訓練批次大小	16
評估批次大小	8
隨機種子	42
梯度累積步數	2
總訓練批次大小	32
優化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型	線性
學習率調度器熱身步數	700
訓練輪數	35
混合精度訓練	原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
9.6226	1.04	200	3.8855	1.0
3.4678	2.07	400	3.4283	1.0
2.3668	3.11	600	1.0743	0.7175
0.7308	4.15	800	0.7663	0.5498
0.4985	5.18	1000	0.6957	0.5001
0.3817	6.22	1200	0.6932	0.4866
0.3281	7.25	1400	0.7034	0.4983
0.2752	8.29	1600	0.6588	0.4606
0.2475	9.33	1800	0.6514	0.4328
0.219	10.36	2000	0.6396	0.4176
0.2036	11.4	2200	0.6867	0.4162
0.1793	12.44	2400	0.6943	0.4196
0.1724	13.47	2600	0.6862	0.4260
0.1554	14.51	2800	0.7615	0.4222
0.151	15.54	3000	0.7058	0.4110
0.1335	16.58	3200	0.7172	0.3986
0.1326	17.62	3400	0.7182	0.3923
0.1225	18.65	3600	0.6995	0.3910
0.1146	19.69	3800	0.7075	0.3875
0.108	20.73	4000	0.7297	0.3858
0.1048	21.76	4200	0.7413	0.3850
0.0979	22.8	4400	0.7452	0.3793
0.0946	23.83	4600	0.7436	0.3759
0.0897	24.87	4800	0.7289	0.3754
0.0854	25.91	5000	0.7271	0.3667
0.0803	26.94	5200	0.7378	0.3656
0.0752	27.98	5400	0.7488	0.3680
0.0718	29.02	5600	0.7185	0.3619
0.0702	30.05	5800	0.7428	0.3554
0.0653	31.09	6000	0.7447	0.3559
0.0638	32.12	6200	0.7327	0.3523
0.058	33.16	6400	0.7339	0.3488
0.0594	34.2	6600	0.7322	0.3469