wav2vec2-large-xlsr-53-demo-colab開源語音識別模型

Wav2vec2 Large Xlsr 53 Demo Colab

由project2you開發

基於facebook/wav2vec2-large-xlsr-53在common_voice數據集上微調的語音識別模型

下載量 21

發布時間 : 3/2/2022

模型概述

這是一個針對語音識別任務進行優化的模型，基於wav2vec2架構，在common_voice數據集上進行了微調訓練。

高效微調

基於預訓練的wav2vec2-large-xlsr-53模型進行微調，提高了在目標數據集上的性能

低詞錯誤率

在評估集上取得了1.6299的詞錯誤率(WER)，表現優異

混合精度訓練

使用原生AMP進行混合精度訓練，提高了訓練效率

語音識別

自動語音轉文本

語音轉錄

語音轉文字

將語音內容轉換為文字記錄

詞錯誤率低至1.6299

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
8.5034	3.42	400	3.5852	1.0
1.7853	6.83	800	0.7430	1.6774
0.5675	10.26	1200	0.6513	1.6330
0.3761	13.67	1600	0.6208	1.6081
0.2776	17.09	2000	0.6401	1.6081
0.2266	20.51	2400	0.6410	1.6295
0.1949	23.93	2800	0.6910	1.6287
0.1672	27.35	3200	0.6901	1.6299