wav2vec2-Phoneme開源語音識別模型 - 精準實現音素識別任務

首頁

Wav2vec2 Phoneme

由Bluecast開發

基於facebook/wav2vec2-large-xlsr-53微調的語音識別模型，專注於音素識別任務

語音識別

Transformers

開源協議:Apache-2.0 #語音識別 #低詞錯誤率 #多語言支持

下載量 189

發布時間 : 4/24/2024

模型概述

該模型是基於facebook/wav2vec2-large-xlsr-53在未知數據集上微調的版本，主要用於語音識別任務，特別關注音素級別的識別。

模型特點

高效音素識別

針對音素識別任務進行了優化，在驗證集上取得了12.81%的詞錯誤率

基於大規模預訓練模型

基於facebook/wav2vec2-large-xlsr-53模型微調，繼承了其強大的語音特徵提取能力

輕量級微調

通過相對較小的訓練批次和適中的訓練輪數完成微調，資源消耗較低

模型能力

語音識別

音素級別分析

音頻特徵提取

使用案例

語音處理

語音轉寫

將語音內容轉換為文本形式

詞錯誤率12.81%

音素分析

識別語音中的音素成分

教育技術

發音評估

用於語言學習中的發音準確度評估

🚀 wav2vec2-Phoneme

wav2vec2-Phoneme 模型是在未知數據集上對 facebook/wav2vec2-large-xlsr-53 進行微調得到的。該模型在評估集上取得了一定的效果，能用於語音相關任務。

🚀 快速開始

本模型是 facebook/wav2vec2-large-xlsr-53 在未知數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.2842
詞錯誤率（Wer）：0.1281

🔧 技術細節

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.0001
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
學習率調度器預熱步數：500
訓練輪數：30
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
2.1769	0.2954	100	2.1463	0.9564
2.1285	0.5908	200	2.0959	0.9575
1.8989	0.8863	300	1.5997	0.9022
1.1123	1.1817	400	0.6782	0.4093
0.618	1.4771	500	0.3548	0.1544
0.4993	1.7725	600	0.3039	0.1331
0.4425	2.0679	700	0.2688	0.1169
0.363	2.3634	800	0.2419	0.1108
0.3507	2.6588	900	0.2220	0.1039
0.3282	2.9542	1000	0.1999	0.1001
0.2887	3.2496	1100	0.2044	0.0974
0.3104	3.5451	1200	0.1950	0.0994
0.2976	3.8405	1300	0.2005	0.0969
0.2617	4.1359	1400	0.1907	0.0962
0.2783	4.4313	1500	0.1886	0.0936
0.2533	4.7267	1600	0.1845	0.0938
0.2501	5.0222	1700	0.1759	0.0926
0.2261	5.3176	1800	0.1789	0.0896
0.2112	5.6130	1900	0.1824	0.0891
0.2162	5.9084	2000	0.1715	0.0886
0.2098	6.2038	2100	0.1761	0.0902
0.2133	6.4993	2200	0.1747	0.0896
0.2174	6.7947	2300	0.1753	0.0892
0.2033	7.0901	2400	0.1729	0.0886
0.2167	7.3855	2500	0.1749	0.0889
0.2001	7.6809	2600	0.1650	0.0874
0.1874	7.9764	2700	0.1656	0.0872
0.1846	8.2718	2800	0.1674	0.0873
0.1927	8.5672	2900	0.1595	0.0863
0.1672	8.8626	3000	0.1552	0.0849
0.1741	9.1581	3100	0.1659	0.0868
0.1753	9.4535	3200	0.1615	0.0862
0.1825	9.7489	3300	0.1623	0.0862
0.166	10.0443	3400	0.1584	0.0865
0.1762	10.3397	3500	0.1573	0.0850
0.1744	10.6352	3600	0.1537	0.0863
0.1786	10.9306	3700	0.1522	0.0840
0.1731	11.2260	3800	0.1645	0.0851
0.1929	11.5214	3900	0.1785	0.0851
0.2047	11.8168	4000	0.1844	0.0860
0.255	12.1123	4100	0.2305	0.0911
0.2771	12.4077	4200	0.2311	0.0886
0.2742	12.7031	4300	0.2605	0.0901
0.3879	12.9985	4400	0.2886	0.0965
0.3655	13.2939	4500	0.2897	0.0933
0.3693	13.5894	4600	0.2936	0.0960
0.3999	13.8848	4700	0.2905	0.1059
0.4286	14.1802	4800	0.3424	0.1025
0.574	14.4756	4900	0.3891	0.1135
0.5753	14.7710	5000	0.3912	0.1276
0.5225	15.0665	5100	0.4248	0.1151
0.4785	15.3619	5200	0.3332	0.1287
0.5733	15.6573	5300	0.3999	0.1261
0.5471	15.9527	5400	0.4144	0.1293
0.5527	16.2482	5500	0.3580	0.1160
0.6322	16.5436	5600	0.5158	0.1794
0.6867	16.8390	5700	0.4731	0.1411
0.606	17.1344	5800	0.3812	0.1305
0.5376	17.4298	5900	0.3505	0.1206
0.5035	17.7253	6000	0.3251	0.1199
0.469	18.0207	6100	0.3092	0.1172
0.4544	18.3161	6200	0.3030	0.1185
0.4288	18.6115	6300	0.2915	0.1183
0.4457	18.9069	6400	0.2834	0.1203
0.408	19.2024	6500	0.2765	0.1212
0.4182	19.4978	6600	0.2741	0.1205
0.4117	19.7932	6700	0.2705	0.1209
0.4131	20.0886	6800	0.2725	0.1230
0.4034	20.3840	6900	0.2713	0.1218
0.4048	20.6795	7000	0.2707	0.1226
0.4199	20.9749	7100	0.2695	0.1221
0.4286	21.2703	7200	0.2709	0.1239
0.3968	21.5657	7300	0.2699	0.1230
0.4071	21.8612	7400	0.2705	0.1254
0.4178	22.1566	7500	0.2701	0.1252
0.396	22.4520	7600	0.2702	0.1252
0.4255	22.7474	7700	0.2701	0.1249
0.4239	23.0428	7800	0.2716	0.1254
0.4153	23.3383	7900	0.2729	0.1264
0.4265	23.6337	8000	0.2726	0.1264
0.4221	23.9291	8100	0.2737	0.1266
0.4268	24.2245	8200	0.2751	0.1269
0.4207	24.5199	8300	0.2761	0.1273
0.3872	24.8154	8400	0.2764	0.1273
0.4004	25.1108	8500	0.2786	0.1276
0.4096	25.4062	8600	0.2798	0.1276
0.4542	25.7016	8700	0.2803	0.1274
0.4361	25.9970	8800	0.2818	0.1276
0.4454	26.2925	8900	0.2826	0.1277
0.4204	26.5879	9000	0.2842	0.1281
0.4423	26.8833	9100	0.2841	0.1280
0.4333	27.1787	9200	0.2845	0.1282
0.4036	27.4742	9300	0.2844	0.1281
0.4203	27.7696	9400	0.2844	0.1281
0.4321	28.0650	9500	0.2842	0.1281
0.4251	28.3604	9600	0.2842	0.1281
0.4122	28.6558	9700	0.2841	0.1281
0.424	28.9513	9800	0.2841	0.1280
0.4404	29.2467	9900	0.2842	0.1281
0.4174	29.5421	10000	0.2842	0.1281
0.4432	29.8375	10100	0.2842	0.1281