wav2vec2-base-checkpoint-5開源語音識別模型

Wav2vec2 Base Checkpoint 5

由jiobiala24開發

該模型是基於wav2vec2-base-checkpoint-4在common_voice數據集上微調的語音識別模型，支持自動語音識別(ASR)任務。

下載量 16

發布時間 : 3/2/2022

模型概述

基於wav2vec2架構的語音識別模型，在common_voice數據集上微調，用於將語音轉換為文本。

高效微調

基於預訓練的wav2vec2模型進行微調，提高了在common_voice數據集上的識別準確率

低詞錯誤率

在評估集上取得了0.3354的詞錯誤率(WER)，表現良好

優化訓練

採用線性學習率調度和Adam優化器進行30輪訓練，確保模型收斂

語音識別

音頻轉文本

語音轉錄

語音轉文字服務

將語音內容自動轉換為文字記錄

詞錯誤率0.3354

輔助工具

聽障輔助

即時將語音轉換為文字，幫助聽障人士理解語音內容

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.3947	1.96	1000	0.5749	0.3597
0.2856	3.93	2000	0.6212	0.3479
0.221	5.89	3000	0.6280	0.3502
0.1755	7.86	4000	0.6517	0.3526
0.1452	9.82	5000	0.7115	0.3481
0.1256	11.79	6000	0.7687	0.3509
0.1117	13.75	7000	0.7785	0.3490
0.0983	15.72	8000	0.8115	0.3442
0.0877	17.68	9000	0.8290	0.3429
0.0799	19.65	10000	0.8517	0.3412
0.0733	21.61	11000	0.9370	0.3448
0.066	23.58	12000	0.9157	0.3410
0.0623	25.54	13000	0.9673	0.3377
0.0583	27.5	14000	0.9804	0.3348
0.0544	29.47	15000	0.9849	0.3354