xls-r-et開源愛沙尼亞語語音識別模型 - 免費部署精準識別語音內容

Xls R Et

由shpotes開發

基於wav2vec2-xls-r-300m架構微調的愛沙尼亞語自動語音識別模型，在Common Voice 7.0數據集上訓練

下載量 23

發布時間 : 3/2/2022

模型概述

該模型是針對愛沙尼亞語優化的自動語音識別(ASR)系統，能夠將愛沙尼亞語音頻轉換為文本

多數據集驗證

在Common Voice 7.0和魯棒語音賽事數據集上進行了全面評估

高效訓練

使用混合精度訓練和餘弦學習率調度優化訓練過程

低字符錯誤率

在測試集上達到7.54%的字錯誤率(CER)

愛沙尼亞語音頻轉文本

語音識別

語音轉錄

語音轉錄

語音備忘錄轉錄

將愛沙尼亞語語音備忘錄轉換為可搜索的文本

在Common Voice測試集上達到34.75%的詞錯誤率

輔助技術

語音輸入系統

為愛沙尼亞語用戶提供語音輸入支持

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
0.3825	12.5	500	0.4022	0.5059
0.1592	25.0	1000	0.4585	0.4456
0.1215	37.5	1500	0.4550	0.4164
0.0972	50.0	2000	0.4725	0.4088
0.0731	62.5	2500	0.4568	0.3824
0.0527	75.0	3000	0.4712	0.3653
0.0428	87.5	3500	0.4813	0.3520
0.0383	100.0	4000	0.4835	0.3475

任務	數據集	指標	值
自動語音識別	Common Voice 7	測試詞錯誤率（Test WER）	0.34753420299077314
自動語音識別	Common Voice 7	測試字符錯誤率（Test CER）	0.07542956089330906
自動語音識別	Robust Speech Event - Dev Data	測試詞錯誤率（Test WER）	47.17
自動語音識別	Robust Speech Event - Test Data	測試詞錯誤率（Test WER）	54.72