wav2vec2-random開源自動語音識別模型 - 基於TIMIT

Wav2vec2 Random

由patrickvonplaten開發

基於TIMIT_ASR數據集對wav2vec2-base-random模型進行微調的自動語音識別模型

下載量 16

發布時間 : 3/2/2022

模型概述

該模型是用於英語語音識別的wav2vec2架構實現，在TIMIT_ASR數據集上進行了微調，能夠將語音轉換為文本

基於wav2vec2架構

採用Facebook Research提出的wav2vec2自監督學習架構

TIMIT_ASR數據集微調

在標準TIMIT語音識別數據集上進行微調

中等規模模型

基於wav2vec2-base架構，適合中等計算資源環境

英語語音識別

語音轉文本

語音轉錄

語音記錄轉寫

將英語語音記錄轉換為文字稿

在TIMIT評估集上達到0.8364詞錯誤率

語音接口

語音命令識別

識別簡單的英語語音命令

本模型是 patrickvonplaten/wav2vec2-base-random 在 TIMIT_ASR - NA 數據集上的微調版本。它在評估集上取得了以下結果：

本模型是在特定數據集上微調所得，可用於自動語音識別任務。若要使用該模型，可參考 Hugging Face 相關文檔進行部署和推理。

此模型基於 patrickvonplaten/wav2vec2-base-random 進行微調，在 TIMIT_ASR - NA 數據集上進行訓練和評估。

更多信息待補充。

更多信息待補充。

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
2.9043	0.69	100	2.9683	1.0
2.8537	1.38	200	2.9281	0.9997
2.7803	2.07	300	2.7330	0.9999
2.6806	2.76	400	2.5792	1.0
2.4136	3.45	500	2.4327	0.9948
2.1682	4.14	600	2.3508	0.9877
2.2577	4.83	700	2.2176	0.9773
2.355	5.52	800	2.1753	0.9542
1.8588	6.21	900	2.0650	0.8851
1.6831	6.9	1000	2.0109	0.8618
1.888	7.59	1100	1.9660	0.8418
2.0066	8.28	1200	1.9847	0.8531
1.7044	8.97	1300	1.9760	0.8527
1.3168	9.66	1400	2.0708	0.8327
1.2143	10.34	1500	2.0601	0.8419
1.6189	11.03	1600	2.0960	0.8299
1.13	11.72	1700	2.2540	0.8408
0.8001	12.41	1800	2.4260	0.8306
0.7769	13.1	1900	2.4182	0.8445
1.2165	13.79	2000	2.3666	0.8284
0.8026	14.48	2100	2.7118	0.8662
0.5148	15.17	2200	2.7957	0.8526
0.4921	15.86	2300	2.8244	0.8346
0.7629	16.55	2400	2.8944	0.8370
0.5762	17.24	2500	3.0335	0.8367
0.4076	17.93	2600	3.0776	0.8358
0.3395	18.62	2700	3.1572	0.8261
0.4862	19.31	2800	3.1319	0.8414
0.5061	20.0	2900	3.1593	0.8364