wav2vec2-large-xls-r-300m-bulgarian開源模型 - 精準實現保加利亞語語音識別

Wav2vec2 Large Xls R 300m Bulgarian

由infinitejoy開發

基於facebook/wav2vec2-xls-r-300m在MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - BG數據集上微調的保加利亞語語音識別模型

下載量 10.59k

發布時間 : 3/2/2022

模型概述

這是一個用於保加利亞語自動語音識別(ASR)的模型，基於XLS-R架構，在Common Voice 7.0的保加利亞語數據集上微調。

多語言預訓練

基於XLS-R-300M多語言模型微調，具有強大的語音表示能力

保加利亞語優化

專門針對保加利亞語進行微調，適應特定語言特徵

中等規模

300M參數規模，在性能和資源消耗間取得平衡

保加利亞語語音識別

語音轉文本

對話轉錄

語音轉錄

語音備忘錄轉錄

將保加利亞語語音備忘錄轉換為文本

在Common Voice 7測試集上WER 46.68%

客服對話記錄

自動記錄保加利亞語客服對話內容

在魯棒語音事件測試數據上WER 64.08%

輔助技術

語音控制應用

為保加利亞語用戶提供語音控制界面

該模型是基於facebook/wav2vec2-xls-r-300m在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - BG數據集上進行微調的版本。它在評估集上取得了以下結果：

屬性	詳情
支持語言	保加利亞語（bg）
許可證	Apache - 2.0
標籤	自動語音識別、mozilla - foundation/common_voice_7_0、generated_from_trainer、bg、robust - speech - event、model_for_talk、hf - asr - leaderboard
數據集	mozilla - foundation/common_voice_7_0

任務	數據集	測試詞錯誤率（WER）	測試字符錯誤率（CER）
自動語音識別	Common Voice 7	46.68	10.75
自動語音識別	Robust Speech Event - Dev Data	63.68	19.88
自動語音識別	Robust Speech Event - Test Data	64.08	未提及

在訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
2.9774	6.33	500	2.9769	1.0
1.3453	12.66	1000	0.6523	0.6980
1.1658	18.99	1500	0.5636	0.6359
1.0797	25.32	2000	0.5004	0.5759
1.044	31.65	2500	0.4958	0.5569
0.9915	37.97	3000	0.4971	0.5350
0.9429	44.3	3500	0.4829	0.5229
0.9266	50.63	4000	0.4515	0.5074
0.8965	56.96	4500	0.4599	0.5039
0.878	63.29	5000	0.4735	0.4954
0.8494	69.62	5500	0.4460	0.4878
0.8343	75.95	6000	0.4510	0.4795
0.8236	82.28	6500	0.4538	0.4789
0.8069	88.61	7000	0.4526	0.4748
0.7958	94.94	7500	0.4496	0.4700