wav2vec_mle開源語音識別模型 - 基於預訓練微調，詞錯誤率低至1.0

Wav2vec Mle

由eugenetanjc開發

基於facebook/wav2vec2-base-960h微調的語音識別模型，在評估集上詞錯誤率為1.0

下載量 68

發布時間 : 6/24/2022

模型概述

該模型是基於wav2vec2架構的語音識別模型，經過微調後可用於語音轉文本任務

基於wav2vec2架構

採用Facebook開發的wav2vec2-base-960h作為基礎模型

微調優化

在特定數據集上進行微調訓練，優化語音識別性能

語音轉文本

自動語音識別

語音轉錄

會議記錄

將會議錄音自動轉換為文字記錄

語音筆記

將語音備忘錄轉換為可搜索的文本

屬性	詳情
學習率（learning_rate）	0.0003
訓練批次大小（train_batch_size）	6
評估批次大小（eval_batch_size）	8
隨機種子（seed）	42
梯度累積步數（gradient_accumulation_steps）	2
總訓練批次大小（total_train_batch_size）	12
優化器（optimizer）	Adam，β1 = 0.9，β2 = 0.999，ε = 1e-08
學習率調度器類型（lr_scheduler_type）	線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）	20
訓練輪數（num_epochs）	60

訓練損失（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失（Validation Loss）	字錯率（Wer）
7.3604	3.33	30	4.4612	1.0
4.502	6.67	60	4.5906	1.0
4.2842	10.0	90	4.4217	1.0
4.3833	13.33	120	4.3967	1.0
4.2631	16.67	150	4.3469	1.0
4.3357	20.0	180	4.3372	1.0
4.3941	23.33	210	4.3187	1.0
4.393	26.67	240	4.2981	1.0
4.3619	30.0	270	4.3049	1.0
4.3849	33.33	300	4.3138	1.0
4.3186	36.67	330	4.3123	1.0
4.3196	40.0	360	4.3097	1.0
4.3212	43.33	390	4.3279	1.0
4.3108	46.67	420	4.3249	1.0
4.3112	50.0	450	4.3093	1.0
4.2994	53.33	480	4.3198	1.0
4.2958	56.67	510	4.3071	1.0
4.2905	60.0	540	4.3076	1.0