wav2vec2-xls-r-phoneme-300m-tr開源模型 - 用於土耳其語自動語音識別

Wav2vec2 Xls R Phoneme 300m Tr

由patrickvonplaten開發

基於Facebook的wav2vec2-xls-r-300m模型在土耳其語Common Voice數據集上微調的自動語音識別模型

下載量 16

發布時間 : 3/2/2022

模型概述

該模型是針對土耳其語優化的自動語音識別(ASR)模型，專注於音素級別的識別任務。在Common Voice土耳其語評估集上取得了16.64%的音素錯誤率(PER)。

音素級別識別

專注於音素級別的語音識別，適合需要精細語音分析的應用場景

土耳其語優化

專門針對土耳其語進行微調，在Common Voice土耳其語數據集上表現良好

基於XLS-R架構

採用Facebook強大的wav2vec2-xls-r-300m架構作為基礎模型

土耳其語語音識別

音素級別分析

語音轉文本

語音轉錄

土耳其語語音轉文字

將土耳其語語音內容轉換為文本

音素錯誤率16.64%

語音分析

音素研究

用於語言學研究和土耳其語音素分析

訓練損失	輪數	步數	驗證損失	音素錯誤率（PER）
13.6687	0.92	100	12.4567	1.0
3.4219	1.83	200	3.4704	1.0
3.1846	2.75	300	3.2281	0.9935
2.0076	3.67	400	1.7415	0.5222
1.0244	4.59	500	1.0290	0.3323
0.7095	5.5	600	0.8424	0.2859
0.619	6.42	700	0.7389	0.2232
0.3541	7.34	800	0.7049	0.2043
0.2946	8.26	900	0.7065	0.2153
0.2868	9.17	1000	0.6840	0.2115
0.2245	10.09	1100	0.6714	0.1952
0.1394	11.01	1200	0.6864	0.1954
0.1288	11.93	1300	0.6696	0.2017
0.1568	12.84	1400	0.6468	0.1843
0.1269	13.76	1500	0.6736	0.1965
0.1101	14.68	1600	0.6689	0.1915
0.1388	15.6	1700	0.6690	0.1782
0.0739	16.51	1800	0.6364	0.1734
0.0897	17.43	1900	0.6480	0.1748
0.0795	18.35	2000	0.6356	0.1695
0.0823	19.27	2100	0.6382	0.1685