wav2vec2-base_toy_train_data_slow_10pct開源語音識別模型

Wav2vec2 Base Toy Train Data Slow 10pct

由scasutt開發

基於facebook/wav2vec2-base模型在未知數據集上微調的語音識別模型，詞錯誤率(WER)為0.7175

下載量 22

發布時間 : 3/27/2022

模型概述

該模型是wav2vec2-base的微調版本，主要用於語音識別任務。模型在評估集上表現出一定的識別能力，但仍有改進空間。

基於wav2vec2-base微調

在基礎wav2vec2模型上進行微調，適應特定語音識別任務

線性學習率調度

採用線性學習率調度策略，配合1000步的預熱期

梯度累積訓練

使用梯度累積(步數=2)來增加有效批次大小

語音轉文本

自動語音識別

語音轉錄

會議記錄轉錄

將會議錄音轉換為文字記錄

詞錯誤率0.7175

語音指令識別

識別簡單的語音指令

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.0663	2.1	500	3.0725	0.9982
1.1679	4.2	1000	1.3620	0.8889
0.6789	6.3	1500	1.2182	0.8160
0.5764	8.4	2000	1.2469	0.7667
0.4603	10.5	2500	1.2851	0.7533
0.4085	12.6	3000	1.2351	0.7401
0.3583	14.7	3500	1.2455	0.7367
0.3158	16.81	4000	1.3663	0.7261
0.2817	18.91	4500	1.3248	0.7175