wavlm-libri-clean-100h-large開源自動語音識別模型 - 免費部署精準識別語音內容

Wavlm Libri Clean 100h Large

由patrickvonplaten開發

基於microsoft/wavlm-large在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型

下載量 8,171

發布時間 : 3/2/2022

模型概述

該模型是WavLM-Large架構在LibriSpeech clean-100h數據集上的微調版本，專注於英語語音識別任務，在評估集上取得了較低的詞錯誤率(WER)。

高性能語音識別

在LibriSpeech clean-100h數據集上微調後，詞錯誤率(WER)低至0.0491

基於WavLM-Large架構

採用微軟WavLM-Large預訓練模型作為基礎，具有強大的語音特徵提取能力

多GPU訓練優化

使用8個GPU進行分佈式訓練，通過梯度累積等技術優化訓練效率

英語語音識別

高精度語音轉文本

連續語音識別

語音轉錄

有聲書轉錄

將英語有聲讀物內容自動轉錄為文本

在LibriSpeech評估集上詞錯誤率4.91%

語音助手

語音指令識別

用於智能設備中的英語語音指令識別

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.8069	0.34	300	0.7510	0.5809
0.2483	0.67	600	0.2023	0.1929
0.1033	1.01	900	0.1123	0.1028
0.0742	1.35	1200	0.0858	0.0771
0.057	1.68	1500	0.0722	0.0663
0.0421	2.02	1800	0.0682	0.0582
0.0839	2.35	2100	0.0630	0.0534
0.0307	2.69	2400	0.0603	0.0508