wav2vec2-large-xls-r-300m-sr-v4開源語音識別模型

首頁

Wav2vec2 Large Xls R 300m Sr V4

由DrishtiSharma開發

基於facebook/wav2vec2-xls-r-300m在塞爾維亞語(sr)數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #塞爾維亞語ASR #低詞錯誤率 #多場景語音識別

下載量 28

發布時間 : 3/2/2022

模型概述

該模型是針對塞爾維亞語的自動語音識別(ASR)任務優化的wav2vec2模型，在Common Voice 8數據集上微調，支持塞爾維亞語語音轉文本任務。

模型特點

塞爾維亞語優化

專門針對塞爾維亞語進行微調，在Common Voice 8數據集上表現良好

基於大模型

基於facebook的wav2vec2-xls-r-300m大模型架構，具備強大的語音特徵提取能力

多場景評估

在Common Voice和魯棒語音賽事等多個數據集上進行評估

模型能力

塞爾維亞語語音識別

語音轉文本

長音頻處理(支持分塊處理)

使用案例

語音轉錄

塞爾維亞語語音轉錄

將塞爾維亞語語音轉換為文本

在Common Voice 8測試集上WER為30.33%

語音識別系統

語音助手

用於塞爾維亞語語音助手開發

🚀 wav2vec2-large-xls-r-300m-sr-v4

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SR數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在自動語音識別任務中表現出色，能夠有效處理語音數據，將語音準確轉換為文本。

🚀 快速開始

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SR數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集上取得了以下結果：

損失值：0.5570
詞錯誤率（Wer）：0.3038

💻 使用示例

基礎用法

以下是在不同數據集上進行評估的命令示例：

1. 在mozilla - foundation/common_voice_8_0的測試分割集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset mozilla-foundation/common_voice_8_0 --config sr --split test --log_outputs

2. 在speech - recognition - community - v2/dev_data上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset speech-recognition-community-v2/dev_data --config sr --split validation --chunk_length_s 10 --stride_length_s 1

🔧 技術細節

訓練超參數

在訓練過程中使用了以下超參數：

學習率：0.0003
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器熱身步數：800
訓練輪數：200
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
8.2934	7.5	300	2.9777	0.9995
1.5049	15.0	600	0.5036	0.4806
0.3263	22.5	900	0.5822	0.4055
0.2008	30.0	1200	0.5609	0.4032
0.1543	37.5	1500	0.5203	0.3710
0.1158	45.0	1800	0.6458	0.3985
0.0997	52.5	2100	0.6227	0.4013
0.0834	60.0	2400	0.6048	0.3836
0.0665	67.5	2700	0.6197	0.3686
0.0602	75.0	3000	0.5418	0.3453
0.0524	82.5	3300	0.5310	0.3486
0.0445	90.0	3600	0.5599	0.3374
0.0406	97.5	3900	0.5958	0.3327
0.0358	105.0	4200	0.6017	0.3262
0.0302	112.5	4500	0.5613	0.3248
0.0285	120.0	4800	0.5659	0.3462
0.0213	127.5	5100	0.5568	0.3206
0.0215	135.0	5400	0.6524	0.3472
0.0162	142.5	5700	0.6223	0.3458
0.0137	150.0	6000	0.6625	0.3313
0.0114	157.5	6300	0.5739	0.3336
0.0101	165.0	6600	0.5906	0.3285
0.008	172.5	6900	0.5982	0.3112
0.0076	180.0	7200	0.5399	0.3094
0.0071	187.5	7500	0.5387	0.2991
0.0057	195.0	7800	0.5570	0.3038