wav2vec2-base-cv-10000開源語音識別模型 - 精準識別助力語音處理

Wav2vec2 Base Cv 10000

由jiobiala24開發

基於wav2vec2-base-cv在通用語音數據集上微調的語音識別模型，在評估集上取得了36.84%的詞錯誤率。

下載量 28

發布時間 : 3/8/2022

模型概述

該模型是一個語音識別模型，基於wav2vec2架構，在通用語音數據集上進行了微調，適用於語音轉文本任務。

低詞錯誤率

在評估集上取得了36.84%的詞錯誤率，表現良好。

基於wav2vec2架構

採用wav2vec2-base架構，具有良好的語音特徵提取能力。

微調優化

在通用語音數據集上進行了30輪微調，優化了模型性能。

語音識別

語音轉文本

語音轉錄

會議記錄

將會議語音即時轉換為文字記錄

準確率約63.16%（基於36.84%的詞錯誤率）

語音筆記

將語音筆記轉換為可編輯的文本

輔助技術

語音控制

為語音控制應用提供文本轉換功能

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.4243	1.6	1000	0.7742	0.4210
0.3636	3.2	2000	0.8621	0.4229
0.2638	4.8	3000	0.9328	0.4094
0.2273	6.4	4000	0.9556	0.4087
0.187	8.0	5000	0.9093	0.4019
0.1593	9.6	6000	0.9842	0.4029
0.1362	11.2	7000	1.0651	0.4077
0.1125	12.8	8000	1.0550	0.3959
0.103	14.4	9000	1.1919	0.4002
0.0948	16.0	10000	1.1901	0.3983
0.0791	17.6	11000	1.1091	0.3860
0.0703	19.2	12000	1.2823	0.3904
0.0641	20.8	13000	1.2625	0.3817
0.057	22.4	14000	1.2821	0.3776
0.0546	24.0	15000	1.2975	0.3770
0.0457	25.6	16000	1.2998	0.3714
0.0433	27.2	17000	1.3574	0.3721
0.0423	28.8	18000	1.3393	0.3684