xls-asr-vi-40h-1B開源越南語語音識別模型

首頁

Xls Asr Vi 40h 1B

由geninhu開發

基於facebook/wav2vec2-xls-r-1b在40小時FPT開放語音數據集(FOSD)和公共語音數據集7.0上微調的越南語自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #越南語語音識別 #低資源優化 #多數據集訓練

下載量 23

發布時間 : 3/2/2022

模型概述

該模型是針對越南語的自動語音識別(ASR)任務優化的模型，在有限的數據集上表現出色，支持語言模型集成以提高識別準確率。

模型特點

高效微調

僅使用40小時越南語數據在大型預訓練模型上微調，實現高效資源利用

語言模型支持

支持集成4-gram語言模型，顯著降低詞錯誤率(WER)和字錯誤率(CER)

多數據集驗證

在VIVOS、公共語音7.0和8.0等多個越南語數據集上進行全面評估

模型能力

越南語語音識別

語音轉文本

支持語言模型集成

使用案例

語音轉錄

越南語語音轉寫

將越南語語音內容轉換為文本

在公共語音7.0測試集上達到25.846% WER

語音助手

越南語語音指令識別

用於越南語語音助手的前端語音識別

🚀 xls-asr-vi-40h-1B

本模型是 facebook/wav2vec2-xls-r-1b 在40小時的FPT開放語音數據集（FOSD）和Common Voice 7.0上微調後的版本。

🚀 快速開始

本部分暫未提供相關內容。

✨ 主要特性

基於預訓練模型 facebook/wav2vec2-xls-r-1b 進行微調，適用於越南語的自動語音識別任務。
在多個語音數據集上進行了評估，展示了較好的詞錯誤率（WER）和字符錯誤率（CER）。

📚 詳細文檔

基準測試WER結果

	VIVOS	COMMON VOICE 7.0	COMMON VOICE 8.0
無語言模型	25.93	34.21
有4-gram語言模型	24.11	25.84	31.158

基準測試CER結果

	VIVOS	COMMON VOICE 7.0	COMMON VOICE 8.0
無語言模型	9.24	19.94
有4-gram語言模型	10.37	12.96	16.179

評估

請使用 eval.py 文件進行評估：

python eval.py --model_id geninhu/xls-asr-vi-40h-1B --dataset mozilla-foundation/common_voice_7_0 --config vi --split test --log_outputs

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e-05
訓練批次大小：16
評估批次大小：16
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam，β=(0.9, 0.999)，ε=1e-08
學習率調度器類型：線性
學習率調度器熱身步數：1500
訓練輪數：10.0
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（WER）
4.6222	1.85	1500	5.9479	0.5474
1.1362	3.7	3000	7.9799	0.5094
0.7814	5.56	4500	5.0330	0.4724
0.6281	7.41	6000	2.3484	0.5020
0.5472	9.26	7500	2.2495	0.4793
0.4827	11.11	9000	1.1530	0.4768
0.4327	12.96	10500	1.6160	0.4646
0.3989	14.81	12000	3.2633	0.4703
0.3522	16.67	13500	2.2337	0.4708
0.3201	18.52	15000	3.6879	0.4565
0.2899	20.37	16500	5.4389	0.4599
0.2776	22.22	18000	3.5284	0.4537
0.2574	24.07	19500	2.1759	0.4649
0.2378	25.93	21000	3.3901	0.4448
0.217	27.78	22500	1.1632	0.4565
0.2115	29.63	24000	1.7441	0.4232
0.1959	31.48	25500	3.4992	0.4304
0.187	33.33	27000	3.6163	0.4369
0.1748	35.19	28500	3.6038	0.4467
0.17	37.04	30000	2.9708	0.4362
0.159	38.89	31500	3.2045	0.4279
0.153	40.74	33000	3.2427	0.4287
0.1463	42.59	34500	3.5439	0.4270
0.139	44.44	36000	3.9381	0.4150
0.1352	46.3	37500	4.1744	0.4092
0.1369	48.15	39000	4.2279	0.4154
0.1273	50.0	40500	4.1691	0.4133