wav2vec2-base-timit-demo-colab12開源語音識別模型 - 免費部署低錯誤率精準識別

Wav2vec2 Base Timit Demo Colab12

Developed by sameearif88

基於facebook/wav2vec2-base模型在TIMIT數據集上微調的語音識別模型，詞錯誤率(WER)為0.3546

Downloads 16

Release Time : 5/1/2022

Model Overview

該模型是用於英語語音識別的預訓練模型，通過微調在TIMIT數據集上實現了較好的識別準確率

低詞錯誤率

在評估集上達到0.3546的詞錯誤率(WER)，表現優異

基於wav2vec2架構

採用Facebook開源的wav2vec2-base模型作為基礎架構

微調優化

通過30輪次的精細調優，顯著提升了原模型的識別性能

英語語音識別

音頻轉文本

語音內容分析

語音轉錄

會議記錄自動生成

將會議錄音自動轉換為文字記錄

準確率約65%（基於WER 0.3546推算）

語音助手

語音指令識別

識別用戶語音指令並轉換為可執行命令

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
4.1683	3.52	500	1.3684	0.7364
0.7614	7.04	1000	0.6008	0.5218
0.4721	10.56	1500	0.5319	0.4614
0.3376	14.08	2000	0.5234	0.4308
0.2508	17.61	2500	0.5109	0.3998
0.1978	21.13	3000	0.5037	0.3721
0.1645	24.65	3500	0.4918	0.3622
0.1449	28.17	4000	0.4831	0.3546