wavlm-libri-clean-100h-base-plus開源自動語音識別模型

Wavlm Libri Clean 100h Base Plus

由patrickvonplaten開發

基於microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型

下載量 126.17k

發布時間 : 3/2/2022

模型概述

該模型是針對英語語音識別任務優化的WavLM模型，在LibriSpeech clean-100h數據集上進行了微調，取得了較低的詞錯誤率(WER)。

高效微調

基於預訓練的WavLM-base-plus模型進行微調，充分利用預訓練模型的強大特徵提取能力

低詞錯誤率

在評估集上取得了0.0683的詞錯誤率(WER)，表現出色

多GPU訓練優化

採用8GPU並行訓練，總批次大小達到32，訓練效率高

英語語音識別

連續語音轉文本

高準確率轉錄

語音轉錄

有聲書轉錄

將英語有聲讀物內容自動轉錄為文本

在LibriSpeech數據集上達到6.83%的詞錯誤率

會議記錄

將英語會議錄音自動轉換為文字記錄

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
2.8877	0.34	300	2.8649	1.0
0.2852	0.67	600	0.2196	0.1830
0.1198	1.01	900	0.1438	0.1273
0.0906	1.35	1200	0.1145	0.1035
0.0729	1.68	1500	0.1055	0.0955
0.0605	2.02	1800	0.0936	0.0859
0.0402	2.35	2100	0.0885	0.0746
0.0421	2.69	2400	0.0848	0.0700