wav2vec2-librispeech-clean-100h-demo-dist開源語音識別模型

Wav2vec2 Librispeech Clean 100h Demo Dist

由patrickvonplaten開發

基於facebook/wav2vec2-large-lv60在LIBRISPEECH_ASR-CLEAN數據集上微調的語音識別模型

下載量 15

發布時間 : 3/2/2022

模型概述

該模型是一個語音識別模型，專門針對LIBRISPEECH_ASR-CLEAN數據集進行了優化，能夠將語音轉換為文本。

高效微調

基於facebook/wav2vec2-large-lv60模型在LIBRISPEECH_ASR-CLEAN數據集上進行了高效微調。

低詞錯誤率

在評估集上實現了0.0417的詞錯誤率(WER)，表現優異。

分佈式訓練

支持多GPU分佈式訓練，提高了訓練效率。

語音識別

英語語音轉文本

語音轉寫

會議記錄

將會議錄音自動轉換為文字記錄

準確率較高，詞錯誤率僅為0.0417

語音助手

用於語音助手的語音識別模塊

該模型是 facebook/wav2vec2-large-lv60 在 LIBRISPEECH_ASR - CLEAN 數據集上的微調版本。它在評估集上取得了以下結果：

更多信息待補充。

更多信息待補充。

更多信息待補充。

訓練期間使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.399	0.11	100	3.6153	1.0
2.8892	0.22	200	2.8963	1.0
2.8284	0.34	300	2.8574	1.0
0.7347	0.45	400	0.6158	0.4850
0.1138	0.56	500	0.2038	0.1560
0.248	0.67	600	0.1274	0.1024
0.2586	0.78	700	0.1108	0.0876
0.0733	0.9	800	0.0936	0.0762
0.044	1.01	900	0.0834	0.0662
0.0393	1.12	1000	0.0792	0.0622
0.0941	1.23	1100	0.0769	0.0627
0.036	1.35	1200	0.0731	0.0603
0.0768	1.46	1300	0.0713	0.0559
0.0518	1.57	1400	0.0686	0.0537
0.0815	1.68	1500	0.0639	0.0515
0.0603	1.79	1600	0.0636	0.0500
0.056	1.91	1700	0.0609	0.0480
0.0265	2.02	1800	0.0621	0.0465
0.0496	2.13	1900	0.0607	0.0449
0.0436	2.24	2000	0.0591	0.0446
0.0421	2.35	2100	0.0590	0.0428
0.0641	2.47	2200	0.0603	0.0443
0.0466	2.58	2300	0.0580	0.0429
0.0132	2.69	2400	0.0574	0.0423
0.0073	2.8	2500	0.0586	0.0417
0.0021	2.91	2600	0.0574	0.0412