wav2vec2-xls-r-300m-gl-CV8開源語音識別模型 - 助力加利西亞語語音精準識別

Wav2vec2 Xls R 300m Gl CV8

由emre開發

該模型是基於Facebook的wav2vec2-xls-r-300m在Common Voice加利西亞語(gl)數據集上微調的語音識別模型，在測試集上取得了20.8%的詞錯誤率(WER)。

下載量 18

發布時間 : 3/2/2022

模型概述

這是一個用於加利西亞語(gl)自動語音識別(ASR)的模型，基於wav2vec2-xls-r-300m架構微調而來，適用於將加利西亞語語音轉換為文本的任務。

多數據集評估

模型在Common Voice gl、Common Voice 8.0和Robust Speech Event等多個數據集上進行了評估，展示了在不同數據分佈下的性能表現。

相對較低的WER

在Common Voice gl測試集上取得了20.8%的詞錯誤率(WER)，表明對標準語音數據有較好的識別能力。

大規模預訓練模型微調

基於Facebook的wav2vec2-xls-r-300m大規模預訓練模型進行微調，利用了預訓練模型的強大特徵提取能力。

加利西亞語語音識別

語音轉文本

自動語音識別

語音轉錄

加利西亞語語音轉錄

將加利西亞語語音內容轉換為文本格式

在標準測試集上達到20.8%的詞錯誤率

語音助手

加利西亞語語音指令識別

用於加利西亞語語音助手或語音控制系統的語音識別模塊

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
4.9427	4.9	500	2.8801	1.0
2.1594	9.8	1000	0.4092	0.4001
0.7332	14.71	1500	0.2151	0.2080

模型名稱	任務	數據集	指標	值
wav2vec2-xls-r-300m-gl-CV8	語音識別自動語音識別自動語音識別自動語音識別	Common Voice gl Common Voice 8.0 Robust Speech Event - Dev Data Robust Speech Event - Test Data	測試字錯率（Test WER）測試字錯率（Test WER）測試字錯率（Test WER）測試字錯率（Test WER）	0.208 22.94 47.82 50.8