wav2vec2-large-xls-r-300m-hsb-v2開源模型 - 實現上索布語自動語音識別

首頁

Wav2vec2 Large Xls R 300m Hsb V2

由DrishtiSharma開發

這是一個基於Facebook的wav2vec2-xls-r-300m模型在上索布語(HSB)數據集上微調的自動語音識別(ASR)模型。

語音識別

Transformers

其他開源協議:Apache-2.0 #上索布語語音識別 #低詞錯誤率 #多場景語音處理

下載量 19

發布時間 : 3/2/2022

模型概述

該模型專門用於上索布語的語音識別任務，在Common Voice 8數據集上進行了微調，能夠將上索布語語音轉換為文本。

模型特點

上索布語專用

專門為上索布語優化的語音識別模型

基於大規模預訓練模型

基於Facebook的wav2vec2-xls-r-300m模型微調，具備強大的語音特徵提取能力

相對較高的識別準確率

在Common Voice 8測試集上達到46.5%的詞錯誤率(WER)和11.4%的字錯誤率(CER)

模型能力

上索布語語音識別

語音轉文本

自動語音轉錄

使用案例

語音轉錄

上索布語語音轉錄

將上索布語語音內容轉換為文本

在Common Voice 8測試集上WER為46.5%

語言保護

少數民族語言數字化

幫助保存和數字化上索布語等少數民族語言

🚀 wav2vec2-large-xls-r-300m-hsb-v2

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - HSB數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集上取得了以下成果，為自動語音識別任務提供了有效的解決方案。

✨ 主要特性

多語言支持：支持上索布語（hsb），適用於特定語言的語音識別場景。
微調優化：基於預訓練模型進行微調，在特定數據集上表現更優。
評估指標良好：在評估集上有較好的損失和WER指標。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

評估命令

在mozilla - foundation/common_voice_8_0測試分割集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v2 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs

在speech - recognition - community - v2/dev_data上進行評估 上索布語（hsb）在speech - recognition - community - v2/dev_data中未找到。

訓練超參數

以下是訓練過程中使用的超參數：

屬性	詳情
學習率	0.00045
訓練批次大小	16
評估批次大小	8
隨機種子	42
梯度累積步數	2
總訓練批次大小	32
優化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型	線性
學習率調度器熱身步數	500
訓練輪數	50
混合精度訓練	原生AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
8.5979	3.23	100	3.5602	1.0
3.303	6.45	200	3.2238	1.0
3.2034	9.68	300	3.2002	0.9888
2.7986	12.9	400	1.2408	0.9210
1.3869	16.13	500	0.7973	0.7462
1.0228	19.35	600	0.6722	0.6788
0.8311	22.58	700	0.6100	0.6150
0.717	25.81	800	0.6236	0.6013
0.6264	29.03	900	0.6031	0.5575
0.5494	32.26	1000	0.5656	0.5309
0.4781	35.48	1100	0.5289	0.4996
0.4311	38.71	1200	0.5375	0.4768
0.3902	41.94	1300	0.5246	0.4703
0.3508	45.16	1400	0.5382	0.4696
0.3199	48.39	1500	0.5328	0.4596

框架版本

Transformers 4.16.1
Pytorch 1.10.0+cu111
Datasets 1.18.2
Tokenizers 0.11.0

🔧 技術細節

本模型在評估集上取得了以下結果：

損失：0.5328
詞錯誤率（Wer）：0.4596

模型評估結果詳情

任務	數據集	指標	值
自動語音識別	Common Voice 8（hsb）	測試詞錯誤率（Test WER）	0.4654228855721393
自動語音識別	Common Voice 8（hsb）	測試字符錯誤率（Test CER）	0.11351049990708047
自動語音識別	Robust Speech Event - Dev Data（hsb）	測試詞錯誤率（Test WER）	NA
自動語音識別	Robust Speech Event - Dev Data（hsb）	測試字符錯誤率（Test CER）	NA