wav2vec2-large-xls-r-300m-bg-d2開源語音識別模型

首頁

Wav2vec2 Large Xls R 300m Bg D2

由DrishtiSharma開發

基於facebook/wav2vec2-xls-r-300m在保加利亞語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #保加利亞語語音識別 #高精度WER #多場景適配

下載量 20

發布時間 : 3/2/2022

模型概述

該模型是針對保加利亞語的自動語音識別(ASR)模型，在Common Voice 8.0數據集上進行了微調，能夠將保加利亞語音頻轉換為文本。

模型特點

高性能保加利亞語識別

在Common Voice 8.0測試集上WER為28.78%，CER為6.86%，表現優異

基於大規模預訓練模型

基於facebook的wav2vec2-xls-r-300m模型微調，繼承了強大的語音特徵提取能力

多數據集驗證

除了Common Voice數據集外，還在魯棒語音事件數據集上進行了驗證

模型能力

保加利亞語音頻轉文本

長音頻處理(支持分塊處理)

語音識別評估

使用案例

語音轉錄

保加利亞語語音轉文字

將保加利亞語的語音內容轉換為可編輯的文本

在標準測試集上準確率較高

語音助手

保加利亞語語音指令識別

用於構建保加利亞語語音助手的基礎識別模塊

🚀 wav2vec2-large-xls-r-300m-bg-d2

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BG數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集上取得了以下結果：

損失值：0.3421
詞錯誤率（WER）：0.2860

✨ 主要特性

支持保加利亞語（bg）的自動語音識別任務。
基於wav2vec2-large-xls-r-300m模型微調，在多個數據集上有較好的表現。

📚 詳細文檔

模型信息

屬性	詳情
支持語言	保加利亞語（bg）
許可證	Apache-2.0
標籤	自動語音識別、保加利亞語、由訓練器生成、HF語音識別排行榜、mozilla - foundation/common_voice_8_0、魯棒語音事件
數據集	mozilla - foundation/common_voice_8_0

評估結果

任務	數據集	測試WER	測試CER
自動語音識別	Common Voice 8	0.28775471338792613	0.06861971204625049
自動語音識別	魯棒語音事件 - 開發數據	0.49783147459727384	0.1591062599627158
自動語音識別	魯棒語音事件 - 測試數據	51.25	-

評估命令

在mozilla - foundation/common_voice_8_0測試分割集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-d2 --dataset mozilla-foundation/common_voice_8_0 --config bg --split test --log_outputs

在speech - recognition - community - v2/dev_data上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-d2 --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 10 --stride_length_s 1

訓練超參數

學習率：0.00025
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器熱身步數：700
訓練輪數：35
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（WER）
6.8791	1.74	200	3.1902	1.0
3.0441	3.48	400	2.8098	0.9864
1.1499	5.22	600	0.4668	0.5014
0.4968	6.96	800	0.4162	0.4472
0.3553	8.7	1000	0.3580	0.3777
0.3027	10.43	1200	0.3422	0.3506
0.2562	12.17	1400	0.3556	0.3639
0.2272	13.91	1600	0.3621	0.3583
0.2125	15.65	1800	0.3436	0.3358
0.1904	17.39	2000	0.3650	0.3545
0.1695	19.13	2200	0.3366	0.3241
0.1532	20.87	2400	0.3550	0.3311
0.1453	22.61	2600	0.3582	0.3131
0.1359	24.35	2800	0.3524	0.3084
0.1233	26.09	3000	0.3503	0.2973
0.1114	27.83	3200	0.3434	0.2946
0.1051	29.57	3400	0.3474	0.2956
0.0965	31.3	3600	0.3426	0.2907
0.0923	33.04	3800	0.3478	0.2894
0.0894	34.78	4000	0.3421	0.2860