wav2vec2-large-xls-r-300m-hsb-v3開源語音識別模型

首頁

Wav2vec2 Large Xls R 300m Hsb V3

由DrishtiSharma開發

基於facebook/wav2vec2-xls-r-300m在上索布語(hsb)數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #上索布語語音識別 #低資源語言ASR #多方言適應性

下載量 18

發布時間 : 3/2/2022

模型概述

該模型是針對上索布語的自動語音識別系統，在Common Voice 8數據集上進行了微調，能夠將上索布語語音轉換為文本。

模型特點

上索布語優化

專門針對上索布語進行微調，在該語言上表現優異

基於大規模預訓練模型

基於facebook的wav2vec2-xls-r-300m模型進行微調，繼承了其強大的語音特徵提取能力

多場景適用

在Common Voice數據集上表現良好，適用於多種語音識別場景

模型能力

上索布語語音識別

語音轉文本

對話語音處理

使用案例

語音轉錄

上索布語語音轉錄

將上索布語語音內容轉換為文本

在測試集上WER為0.476，CER為0.112

語音助手

上索布語語音助手

為上索布語用戶提供語音交互能力

🚀 wav2vec2-large-xls-r-300m-hsb-v3

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - HSB數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它可用於自動語音識別任務，在評估集上取得了良好的效果。

✨ 主要特性

多語言支持：支持上索布語（hsb）的自動語音識別。
訓練數據：基於Mozilla Foundation的Common Voice 8.0數據集進行訓練。
評估指標：在Common Voice 8數據集上，測試字錯誤率（WER）為0.4763681592039801，測試字符錯誤率（CER）為0.11194945177476305。

📦 安裝指南

文檔中未提及安裝步驟，暫不提供。

💻 使用示例

文檔中未提供代碼示例，暫不展示。

📚 詳細文檔

評估命令

1. 在mozilla - foundation/common_voice_8_0測試集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v3 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs

2. 在speech - recognition - community - v2/dev_data上進行評估

上索布語（hsb）在speech - recognition - community - v2/dev_data中未找到！

訓練超參數

以下是訓練過程中使用的超參數：

屬性	詳情
學習率	0.00045
訓練批次大小	16
評估批次大小	8
隨機種子	42
梯度累積步數	2
總訓練批次大小	32
優化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型	線性
學習率調度器熱身步數	500
訓練輪數	50
混合精度訓練	Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	字錯誤率（WER）
8.8951	3.23	100	3.6396	1.0
3.314	6.45	200	3.2331	1.0
3.1931	9.68	300	3.0947	0.9906
1.7079	12.9	400	0.8865	0.8499
0.6859	16.13	500	0.7994	0.7529
0.4804	19.35	600	0.7783	0.7069
0.3506	22.58	700	0.6904	0.6321
0.2695	25.81	800	0.6519	0.5926
0.222	29.03	900	0.7041	0.5720
0.1828	32.26	1000	0.6608	0.5513
0.1474	35.48	1100	0.7129	0.5319
0.1269	38.71	1200	0.6664	0.5056
0.1077	41.94	1300	0.6712	0.4942
0.0934	45.16	1400	0.6467	0.4879
0.0819	48.39	1500	0.6549	0.4827