wav2vec2-large-xls-r-300m-gn-k1開源模型 - 支持瓜拉尼語的自動語音識別

首頁

Wav2vec2 Large Xls R 300m Gn K1

由DrishtiSharma開發

該模型是基於Facebook的wav2vec2-xls-r-300m模型，在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - GN數據集上進行微調的自動語音識別模型，支持瓜拉尼語(gn)。

語音識別

Transformers

其他開源協議:Apache-2.0 #瓜拉尼語語音識別 #低資源語言ASR #XLS-R架構

下載量 22

發布時間 : 3/2/2022

模型概述

這是一個用於瓜拉尼語(gn)自動語音識別的模型，基於wav2vec2-xls-r-300m架構微調而成，適用於語音轉文本任務。

模型特點

多語言支持

專門針對瓜拉尼語優化的語音識別能力

大規模預訓練

基於3億參數的wav2vec2-xls-r-300m模型微調

高性能

在Common Voice 8測試集上達到0.6631的詞錯誤率(WER)

模型能力

語音轉文本

瓜拉尼語語音識別

自動語音識別

使用案例

語音轉錄

瓜拉尼語語音轉錄

將瓜拉尼語語音轉換為文本

在測試集上達到0.6631的詞錯誤率

語音輔助技術

語音控制應用

為瓜拉尼語用戶開發語音控制界面

🚀 wav2vec2-large-xls-r-300m-gn-k1

此模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - GN數據集，對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集上取得了以下結果，可用於自動語音識別任務，為語音識別領域提供了有效的解決方案。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於wav2vec2 - large - xls - r - 300m微調的自動語音識別模型
訓練數據	mozilla - foundation/common_voice_8_0

評估結果

該模型在評估集上取得了以下結果：

損失值（Loss）：0.9220
詞錯誤率（Wer）：0.6631

評估命令

在mozilla - foundation/common_voice_8_0的測試分割集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-gn-k1 --dataset mozilla-foundation/common_voice_8_0 --config gn --split test --log_outputs

在speech - recognition - community - v2/dev_data上進行評估暫無可用評估命令

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：0.00018
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：2
總訓練批次大小（total_train_batch_size）：32
優化器（optimizer）：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：600
訓練輪數（num_epochs）：200
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
15.9402	8.32	100	6.9185	1.0
4.6367	16.64	200	3.7416	1.0
3.4337	24.96	300	3.2581	1.0
3.2307	33.32	400	2.8008	1.0
1.3182	41.64	500	0.8359	0.8171
0.409	49.96	600	0.8470	0.8323
0.2573	58.32	700	0.7823	0.7576
0.1969	66.64	800	0.8306	0.7424
0.1469	74.96	900	0.9225	0.7713
0.1172	83.32	1000	0.7903	0.6951
0.1017	91.64	1100	0.8519	0.6921
0.0851	99.96	1200	0.8129	0.6646
0.071	108.32	1300	0.8614	0.7043
0.061	116.64	1400	0.8414	0.6921
0.0552	124.96	1500	0.8649	0.6905
0.0465	133.32	1600	0.8575	0.6646
0.0381	141.64	1700	0.8802	0.6723
0.0338	149.96	1800	0.8731	0.6845
0.0306	158.32	1900	0.9003	0.6585
0.0236	166.64	2000	0.9408	0.6616
0.021	174.96	2100	0.9353	0.6723
0.0212	183.32	2200	0.9269	0.6570
0.0191	191.64	2300	0.9277	0.6662
0.0161	199.96	2400	0.9220	0.6631