wav2vec2-2-roberta-large模型 - 開源免費語音轉文本，基於LibriSpeech數據集訓練

Wav2vec2 2 Roberta Large No Adapter Frozen Enc

由speech-seq2seq開發

該模型是基於LibriSpeech ASR數據集訓練的語音識別模型，能夠將語音轉換為文本。

下載量 27

發布時間 : 3/2/2022

模型概述

這是一個自動語音識別(ASR)模型，專門用於英語語音轉文本任務。模型基於LibriSpeech數據集訓練，適用於清晰發音的英語語音識別場景。

高準確率

在LibriSpeech評估集上取得了1.0008的詞錯誤率(WER)

優化訓練

採用Adam優化器和線性學習率調度器進行訓練

混合精度訓練

使用原生AMP進行混合精度訓練，提高訓練效率

英語語音識別

語音轉文本

語音轉錄

有聲書轉錄

將英語有聲讀物轉換為文本格式

會議記錄

將英語會議錄音轉換為文字記錄

訓練損失值	訓練輪數	訓練步數	驗證損失值	字錯率
6.4796	0.28	500	10.7690	1.0
6.2294	0.56	1000	10.5096	1.0
5.7859	0.84	1500	13.7547	1.0017
6.0219	1.12	2000	15.4966	1.0007
5.9142	1.4	2500	18.5919	1.0
5.6761	1.68	3000	16.9601	1.0
5.73	1.96	3500	18.9857	1.0004
4.9793	2.24	4000	18.3202	1.0007
5.2332	2.52	4500	19.5416	1.0008
4.9792	2.8	5000	20.5959	1.0008