xls - r - et - V - 3開源語音識別模型 - 免費部署助力愛沙尼亞語語音轉文字

Xls R Et V 3

由vasilis開發

該模型是基於facebook/wav2vec2-xls-r-1b在愛沙尼亞語數據集上微調的自動語音識別模型

下載量 41

發布時間 : 3/2/2022

模型概述

這是一個針對愛沙尼亞語優化的自動語音識別(ASR)模型，在Common Voice 8.0數據集上微調，適用於語音轉文字任務

大規模預訓練模型微調

基於10億參數的XLS-R模型進行愛沙尼亞語專門優化

多數據集評估

在Common Voice和魯棒語音事件等多個數據集上進行性能驗證

混合精度訓練

使用Native AMP技術提高訓練效率

愛沙尼亞語語音識別

語音轉文字

處理不同口音和噪聲環境

語音轉錄

語音備忘錄轉錄

將愛沙尼亞語語音備忘錄轉換為文字

CER 12.59% (Common Voice測試集)

語音助手

愛沙尼亞語語音指令識別

用於愛沙尼亞語語音助手的前端語音識別

WER 52.47% (Common Voice測試集)

本模型是一個用於自動語音識別的模型，基於預訓練模型微調而來，在愛沙尼亞語語音識別任務上有特定的評估表現，可用於相關語音識別場景。

該模型是 facebook/wav2vec2 - xls - r - 1b 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ET 數據集上的微調版本。在評估集上取得了以下結果：

任務名稱	數據集名稱	數據集類型	評估指標	指標值
自動語音識別	Common Voice 8	mozilla - foundation/common_voice_8_0（愛沙尼亞語）	測試詞錯誤率（Test WER）	52.47
自動語音識別	Common Voice 8	mozilla - foundation/common_voice_8_0（愛沙尼亞語）	測試字符錯誤率（Test CER）	12.59
自動語音識別	Robust Speech Event - Dev Data	speech - recognition - community - v2/dev_data（瑞典語）	測試詞錯誤率（Test WER）	61.02
自動語音識別	Robust Speech Event - Dev Data	speech - recognition - community - v2/dev_data（瑞典語）	測試字符錯誤率（Test CER）	21.08
自動語音識別	Robust Speech Event - Dev Data	speech - recognition - community - v2/dev_data（愛沙尼亞語）	測試詞錯誤率（Test WER）	59.23
自動語音識別	Robust Speech Event - Test Data	speech - recognition - community - v2/eval_data（愛沙尼亞語）	測試詞錯誤率（Test WER）	69.08

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
1.0296	2.79	500	0.8106	0.8029
0.9339	5.59	1000	0.7419	0.7932
0.8925	8.38	1500	0.7137	0.7706
0.8484	11.17	2000	0.7020	0.7677
0.7521	13.97	2500	0.7043	0.7375
0.719	16.76	3000	0.6617	0.7428
0.656	19.55	3500	0.6388	0.7202
0.6085	22.35	4000	0.6211	0.6960
0.5598	25.14	4500	0.6132	0.6644
0.4969	27.93	5000	0.6065	0.6521
0.4638	30.73	5500	0.6978	0.6577
0.4385	33.52	6000	0.5994	0.6565
0.396	36.31	6500	0.6170	0.6258
0.3861	39.11	7000	0.6486	0.6217
0.3602	41.9	7500	0.6508	0.6115
0.3251	44.69	8000	0.7022	0.6253
0.3197	47.49	8500	0.7706	0.6215
0.3013	50.28	9000	0.6419	0.5999
0.2813	53.07	9500	0.6908	0.5959
0.286	55.87	10000	0.7151	0.5916
0.2645	58.66	10500	0.7181	0.5860
0.2535	61.45	11000	0.7877	0.5979
0.247	64.25	11500	0.8199	0.6129
0.2412	67.04	12000	0.7679	0.5884
0.2404	69.83	12500	0.7266	0.5816
0.2293	72.63	13000	0.7928	0.5795
0.2176	75.42	13500	0.7916	0.5846
0.2143	78.21	14000	0.7954	0.5765
0.2185	81.01	14500	0.8317	0.5907
0.2057	83.8	15000	0.8016	0.5851
0.1895	86.59	15500	0.8080	0.5679
0.1883	89.39	16000	0.8103	0.5712
0.1802	92.18	16500	0.8383	0.5644
0.1826	94.97	17000	0.8799	0.5657
0.1717	97.77	17500	0.8620	0.5709
0.1701	100.56	18000	0.8717	0.5662
0.1623	103.35	18500	0.8534	0.5594
0.158	106.15	19000	0.8595	0.5546
0.1508	108.94	19500	0.8574	0.5545
0.142	111.73	20000	0.8671	0.5537
0.1395	114.53	20500	0.8436	0.5525
0.1373	117.32	21000	0.8808	0.5482
0.1338	120.11	21500	0.9024	0.5418
0.1278	122.91	22000	0.9143	0.5409
0.1207	125.7	22500	0.8917	0.5358
0.1203	128.49	23000	0.9041	0.5341
0.1083	131.28	23500	0.8884	0.5341
0.1147	134.08	24000	0.8910	0.5255
0.1129	136.87	24500	0.8826	0.5241
0.1029	139.66	25000	0.8824	0.5246