wavlm-base-libri-clean-100開源自動語音識別模型 - 精準識別提升語音處理效率

Wavlm Base Libri Clean 100

由anjulRajendraSharma開發

基於WavLM架構的自動語音識別模型，在LibriSpeech CLEAN數據集（100小時）上微調

下載量 73

發布時間 : 3/2/2022

模型概述

該模型是微軟WavLM-base模型的微調版本，專門用於英語語音識別任務，在LibriSpeech CLEAN數據集上表現出色

高精度語音識別

在LibriSpeech CLEAN測試集上達到7.73%的詞錯誤率

基於WavLM架構

採用微軟先進的WavLM自監督學習架構，具有強大的語音特徵提取能力

輕量級微調

僅使用100小時的乾淨語音數據進行微調，保持基礎模型的泛化能力

英語語音識別

音頻轉文本

語音內容理解

語音轉錄

會議記錄自動轉錄

將會議錄音自動轉換為文字記錄

準確率約92.27%（基於7.73% WER）

播客內容索引

為播客音頻創建可搜索的文字索引

輔助技術

聽力障礙輔助

即時將語音轉換為文字顯示

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
2.8664	0.17	300	2.8439	1.0
0.5009	0.34	600	0.2709	0.2162
0.2056	0.5	900	0.1934	0.1602
0.1648	0.67	1200	0.1576	0.1306
0.1922	0.84	1500	0.1358	0.1114
0.093	1.01	1800	0.1277	0.1035
0.0652	1.18	2100	0.1251	0.1005
0.0848	1.35	2400	0.1188	0.0964
0.0706	1.51	2700	0.1091	0.0905
0.0846	1.68	3000	0.1018	0.0840
0.0684	1.85	3300	0.0978	0.0809