wav2vec2-5開源語音識別模型 - 免費部署助力自動語音識別任務

Wav2vec2 5

由chrisvinsen開發

基於facebook/wav2vec2-base微調的語音識別模型，主要用於自動語音識別(ASR)任務

下載量 20

發布時間 : 5/22/2022

模型概述

本模型是基於wav2vec2-base架構微調的語音識別模型，適用於將語音轉換為文本的任務。

基於wav2vec2架構

採用Facebook Research開發的wav2vec2-base架構，具有良好的語音特徵提取能力

微調優化

在基礎模型上進行了微調訓練，可能針對特定語音識別任務進行了優化

語音識別

音頻轉文本

語音轉錄

會議記錄

將會議錄音自動轉換為文字記錄

語音筆記

將語音備忘錄轉換為可搜索的文本

輔助技術

即時字幕生成

為視頻或直播內容生成即時字幕

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.4082	1.37	200	3.3181	1.0
2.8798	2.74	400	2.9921	1.0
2.8703	4.11	600	3.1937	1.0
2.8643	5.48	800	3.0304	1.0
2.8655	6.85	1000	3.0321	1.0
2.8655	8.22	1200	3.0716	1.0
2.863	9.59	1400	3.1764	1.0
2.8567	10.96	1600	3.0600	1.0
2.861	12.33	1800	3.1761	1.0
2.8606	13.7	2000	3.1028	1.0
2.8613	15.07	2200	3.2119	1.0
2.8612	16.44	2400	3.1158	1.0
2.8603	17.81	2600	3.1230	1.0
2.8601	19.18	2800	3.0380	1.0
2.856	20.55	3000	3.0729	1.0
2.8557	21.92	3200	3.0511	1.0
2.8556	23.29	3400	3.0710	1.0
2.8552	24.66	3600	3.1364	1.0
2.8574	26.03	3800	3.0104	1.0
2.8543	27.4	4000	3.1068	1.0
2.8558	28.77	4200	3.0700	1.0