wav2vec2-2-bert-large-no-adapter開源ASR模型 - 免費將英語語音精準轉文本

Wav2vec2 2 Bert Large No Adapter

由speech-seq2seq開發

基於LibriSpeech數據集訓練的自動語音識別(ASR)模型，用於將英語語音轉換為文本

下載量 15

發布時間 : 3/2/2022

模型概述

該模型是一個自動語音識別系統，專門針對英語語音設計，能夠將語音信號轉換為對應的文本內容。

高準確率

在LibriSpeech評估集上取得了1.7858的詞錯誤率

端到端訓練

模型從原始語音數據到文本輸出的完整流程進行端到端訓練

優化訓練

使用Adam優化器和線性學習率調度器進行精細調優

英語語音識別

連續語音轉文本

大規模語音數據處理

語音轉錄

有聲書轉錄

將有聲讀物內容自動轉錄為文本格式

準確率可達98.2%以上

會議記錄

即時或事後將會議錄音轉換為文字記錄

輔助技術

聽力輔助

為聽力障礙者提供即時字幕服務

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
6.6487	0.28	500	6.8354	1.4719
6.5662	0.56	1000	6.7877	0.9371
6.4309	0.84	1500	6.7640	1.1317
6.7123	1.12	2000	6.7907	1.9354
6.7547	1.4	2500	6.7830	1.8854
6.6726	1.68	3000	6.8211	1.9203
6.6538	1.96	3500	6.8444	1.8235
6.5693	2.24	4000	6.8873	1.8606
6.7234	2.52	4500	6.8649	1.8126
6.5104	2.8	5000	6.9251	1.7858