wav2vec2-large-xls-r-300m-hsb-v1開源語音識別模型

首頁

Wav2vec2 Large Xls R 300m Hsb V1

由DrishtiSharma開發

這是一個基於facebook/wav2vec2-xls-r-300m在上索布語(HSB)數據集上微調的自動語音識別模型，在Common Voice 8測試集上取得了0.4393的詞錯誤率(WER)。

語音識別

Transformers

其他開源協議:Apache-2.0 #上索布語語音識別 #低資源語言ASR #WER優化

下載量 20

發布時間 : 3/2/2022

模型概述

該模型專門用於上索布語的自動語音識別任務，基於wav2vec2架構，在Mozilla Common Voice 8數據集上訓練。

模型特點

低資源語言支持

專門為上索布語這種低資源語言優化的語音識別模型

基於XLS-R架構

使用Facebook的wav2vec2-XLS-R-300M作為基礎模型，具有強大的跨語言表示能力

在Common Voice上微調

在Mozilla Common Voice 8的上索布語數據集上進行微調，適應特定語言特徵

模型能力

上索布語語音識別

語音轉文本

使用案例

語音轉錄

上索布語語音轉錄

將上索布語的語音內容轉換為文本

在Common Voice測試集上WER為0.4393

語言保護

少數民族語言數字化

幫助保存和數字化上索布語等少數民族語言

🚀 wav2vec2-large-xls-r-300m-hsb-v1

本模型是基於 facebook/wav2vec2-xls-r-300m 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSB 數據集上進行微調的版本。它能夠有效解決自動語音識別任務中的相關問題，在特定數據集上展現出了良好的性能，為上索布語的語音識別提供了有力支持。

📦 安裝指南

文檔未提及安裝步驟，跳過此章節。

💻 使用示例

文檔未提供代碼示例，跳過此章節。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	mozilla-foundation/common_voice_8_0

評估結果

本模型在評估集上取得了以下結果：

損失值（Loss）：0.5684
詞錯誤率（Wer）：0.4402

評估命令

在 mozilla-foundation/common_voice_8_0 測試集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v1 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs

在 speech-recognition-community-v2/dev_data 上進行評估上索布語在 speech-recognition-community-v2/dev_data 中不可用。

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：0.00045
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：2
總訓練批次大小（total_train_batch_size）：32
優化器（optimizer）：Adam，β=(0.9, 0.999)，ε=1e-08
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練輪數（num_epochs）：50
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率
8.972	3.23	100	3.7498	1.0
3.3401	6.45	200	3.2320	1.0
3.2046	9.68	300	3.1741	0.9806
2.4031	12.9	400	1.0579	0.8996
1.0427	16.13	500	0.7989	0.7557
0.741	19.35	600	0.6405	0.6299
0.5699	22.58	700	0.6129	0.5928
0.4607	25.81	800	0.6548	0.5695
0.3827	29.03	900	0.6268	0.5190
0.3282	32.26	1000	0.5919	0.5016
0.2764	35.48	1100	0.5953	0.4805
0.2335	38.71	1200	0.5717	0.4728
0.2106	41.94	1300	0.5674	0.4569
0.1859	45.16	1400	0.5685	0.4502
0.1592	48.39	1500	0.5684	0.4402