WavLm-base-en開源英語自動語音識別模型 - 免費部署低誤差精準轉錄

Wavlm Base En

由anjulRajendraSharma開發

基於microsoft/wavlm-base微調的英語自動語音識別(ASR)模型，在english_ASR - CLEAN數據集上訓練，詞錯誤率(WER)為0.0773。

下載量 17

發布時間 : 3/2/2022

模型概述

該模型是專門針對英語語音識別任務優化的WavLM基礎模型，適用於高精度的英語語音轉文字應用。

低詞錯誤率

在評估集上達到0.0773的詞錯誤率(WER)，表現優異

基於WavLM架構

基於微軟WavLM-base模型微調，繼承了其強大的語音表示能力

優化訓練

採用精心調優的訓練參數和線性學習率調度策略

英語語音識別

高精度語音轉文字

語音轉錄

會議記錄

將英語會議錄音自動轉換為文字記錄

高準確率的轉錄結果

字幕生成

為英語視頻內容自動生成字幕

語音助手

語音指令識別

識別和理解英語語音命令

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
2.8664	0.17	300	2.8439	1.0
0.5009	0.34	600	0.2709	0.2162
0.2056	0.5	900	0.1934	0.1602
0.1648	0.67	1200	0.1576	0.1306
0.1922	0.84	1500	0.1358	0.1114
0.093	1.01	1800	0.1277	0.1035
0.0652	1.18	2100	0.1251	0.1005
0.0848	1.35	2400	0.1188	0.0964
0.0706	1.51	2700	0.1091	0.0905
0.0846	1.68	3000	0.1018	0.0840
0.0684	1.85	3300	0.0978	0.0809