wav2vec2-base-repro-timit開源自動語音識別模型

Wav2vec2 Base Repro Timit

由patrickvonplaten開發

該模型是基於patrickvonplaten/wav2vec2-base-repro-960h-libri-85k-steps在TIMIT_ASR - NA數據集上微調的自動語音識別模型。

下載量 20

發布時間 : 3/2/2022

模型概述

這是一個用於英語語音識別的模型，基於wav2vec2架構，在TIMIT_ASR數據集上微調，可用於將英語語音轉換為文本。

基於wav2vec2架構

採用Facebook AI的wav2vec2架構，具有良好的語音識別性能

TIMIT ASR數據集微調

在TIMIT ASR數據集上進行微調，針對英語語音識別進行了優化

逐步改進的性能

從訓練結果可見，模型在20輪訓練中逐步提高了識別準確率

英語語音識別

音頻轉文本

語音轉錄

英語語音轉文字

將英語語音內容轉換為文本格式

詞錯誤率(WER)0.5484

語音輔助技術

語音命令識別

識別簡單的語音命令

本模型是基於 patrickvonplaten/wav2vec2-base-repro-960h-libri-85k-steps 在 TIMIT_ASR - NA 數據集上進行微調後的版本。它在評估集上取得了以下結果：

訓練過程中使用了以下超參數：

屬性	詳情
學習率（learning_rate）	0.0001
訓練批次大小（train_batch_size）	32
評估批次大小（eval_batch_size）	1
隨機種子（seed）	42
優化器（optimizer）	Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型（lr_scheduler_type）	線性（linear）
學習率調度器熱身步數（lr_scheduler_warmup_steps）	1000
訓練輪數（num_epochs）	20.0
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）

訓練損失（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失（Validation Loss）	詞錯誤率（Wer）
5.9793	0.69	100	5.4532	1.0
2.9066	1.38	200	2.9070	1.0
2.2562	2.07	300	2.0323	1.0
1.5273	2.76	400	1.1510	0.8001
1.1085	3.45	500	0.9521	0.7053
0.813	4.14	600	0.8617	0.6702
0.8434	4.83	700	0.8068	0.6393
0.9631	5.52	800	0.7863	0.6248
0.707	6.21	900	0.7476	0.5973
0.5568	6.9	1000	0.7350	0.5911
0.6171	7.59	1100	0.7171	0.5841
0.7011	8.28	1200	0.7318	0.5798
0.5546	8.97	1300	0.7447	0.5767
0.4278	9.66	1400	0.7481	0.5650
0.3576	10.34	1500	0.7443	0.5713
0.5506	11.03	1600	0.7574	0.5664
0.4127	11.72	1700	0.8043	0.5631
0.3251	12.41	1800	0.7738	0.5550
0.3119	13.1	1900	0.7829	0.5516
0.4371	13.79	2000	0.8025	0.5556
0.3772	14.48	2100	0.8451	0.5559
0.2942	15.17	2200	0.8300	0.5556
0.2503	15.86	2300	0.8417	0.5541
0.3671	16.55	2400	0.8568	0.5528
0.3867	17.24	2500	0.8521	0.5510
0.2614	17.93	2600	0.8479	0.5523
0.2441	18.62	2700	0.8558	0.5494
0.3059	19.31	2800	0.8553	0.5474
0.3734	20.0	2900	0.8562	0.5484