sew-d-mid-400k-librispeech-clean-100h-ft開源模型 - 精準自動語音識別，低錯誤率

Sew D Mid 400k Librispeech Clean 100h Ft

由patrickvonplaten開發

該模型是基於asapp/sew-d-mid-400k在LIBRISPEECH_ASR - CLEAN數據集上微調得到的自動語音識別模型，在評估集上取得了1.0536的詞錯誤率(WER)。

下載量 15

發布時間 : 3/2/2022

模型概述

一個針對英語語音識別任務優化的模型，特別適用於LibriSpeech數據集中的乾淨語音樣本。

高效語音識別

基於SEW-D架構優化，提供高效的語音轉文本能力

低詞錯誤率

在LibriSpeech clean 100h數據集上達到1.0536的WER

多GPU訓練優化

支持分佈式訓練，優化了多GPU環境下的性能

英語語音識別

高精度轉錄

處理乾淨語音樣本

語音轉錄

有聲書轉錄

將高質量的有聲讀物內容轉換為文本

高準確率的轉錄結果

會議記錄

在安靜環境下進行會議語音記錄

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
7.319	0.11	100	11.0572	1.0
3.6726	0.22	200	4.2003	1.0
2.981	0.34	300	3.5742	0.9919
2.9411	0.45	400	3.2599	1.0
2.903	0.56	500	2.9350	1.0
2.8597	0.67	600	2.9514	1.0
2.7771	0.78	700	2.8521	1.0
2.7926	0.9	800	2.7821	1.0120
2.6623	1.01	900	2.7027	0.9924
2.5893	1.12	1000	2.6667	1.0240
2.5733	1.23	1100	2.6341	1.0368
2.5455	1.35	1200	2.5928	1.0411
2.4919	1.46	1300	2.5695	1.0817
2.5182	1.57	1400	2.5559	1.1072
2.4766	1.68	1500	2.5229	1.1257
2.4267	1.79	1600	2.4991	1.1151
2.3919	1.91	1700	2.4768	1.1139
2.3883	2.02	1800	2.4452	1.0636
2.3737	2.13	1900	2.4304	1.0594
2.3569	2.24	2000	2.4095	1.0539
2.3641	2.35	2100	2.3997	1.0511
2.3281	2.47	2200	2.3856	1.0414
2.2912	2.58	2300	2.3750	1.0696
2.3028	2.69	2400	2.3684	1.0436
2.2906	2.8	2500	2.3613	1.0538
2.2822	2.91	2600	2.3558	1.0506