unispeech-sat-base-plus-timit-ft開源自動語音識別模型

Unispeech Sat Base Plus Timit Ft

由patrickvonplaten開發

基於microsoft/unispeech-sat-base-plus在TIMIT_ASR數據集上微調的自動語音識別(ASR)模型

下載量 16

發布時間 : 3/2/2022

模型概述

該模型是針對英語語音識別任務優化的神經網絡模型，特別適用於學術研究和語音識別系統開發

TIMIT數據集微調

專門在標準TIMIT語音識別數據集上進行微調，優化了英語語音識別性能

基於UniSpeech-SAT架構

採用微軟UniSpeech-SAT基礎模型，結合自注意力機制進行語音特徵提取

逐步優化訓練

通過20輪訓練逐步降低詞錯誤率(WER)，最終達到0.4051的識別準確率

英語語音識別

連續語音轉文本

語音特徵提取

學術研究

語音識別基準測試

可作為TIMIT數據集上的基準模型進行比較研究

詞錯誤率0.4051

語音技術開發

語音轉文本系統

用於開發英語語音識別應用

本模型是 microsoft/unispeech-sat-base-plus 在 TIMIT_ASR - NA 數據集上的微調版本。它在評估集上取得了以下結果：

此模型為語音識別領域的預訓練模型微調版本，可用於自動語音識別任務，在 TIMIT_ASR - NA 數據集上有特定的評估表現。

該模型基於 microsoft/unispeech-sat-base-plus 進行微調，更多信息待補充。

更多信息待補充。

更多信息待補充。

訓練期間使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.3838	0.69	100	3.2528	1.0
2.9608	1.38	200	2.9682	1.0
2.9574	2.07	300	2.9346	1.0
2.8555	2.76	400	2.7612	1.0
1.7418	3.45	500	1.5732	0.9857
0.9606	4.14	600	1.0014	0.7052
0.8334	4.83	700	0.7691	0.6161
0.852	5.52	800	0.7169	0.5997
0.5707	6.21	900	0.6821	0.5527
0.4235	6.9	1000	0.6078	0.5140
0.4357	7.59	1100	0.5927	0.4982
0.5004	8.28	1200	0.5814	0.4826
0.3757	8.97	1300	0.5951	0.4643
0.2579	9.66	1400	0.5990	0.4581
0.2087	10.34	1500	0.5864	0.4488
0.3155	11.03	1600	0.5836	0.4464
0.2701	11.72	1700	0.6045	0.4348
0.172	12.41	1800	0.6494	0.4344
0.1529	13.1	1900	0.5915	0.4241
0.2411	13.79	2000	0.6156	0.4246
0.2348	14.48	2100	0.6363	0.4206
0.1429	15.17	2200	0.6394	0.4161
0.1151	15.86	2300	0.6186	0.4167
0.1723	16.55	2400	0.6498	0.4124
0.1997	17.24	2500	0.6541	0.4076
0.1297	17.93	2600	0.6546	0.4117
0.101	18.62	2700	0.6471	0.4075
0.1272	19.31	2800	0.6586	0.4065
0.1901	20.0	2900	0.6549	0.4051