wavlm-libri-clean-100h-base開源自動語音識別模型 - 精準識別讓語音處理更輕鬆

Wavlm Libri Clean 100h Base

由patrickvonplaten開發

基於microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型

下載量 6,515

發布時間 : 3/2/2022

模型概述

該模型是針對英語語音識別任務優化的WavLM基礎版本，在100小時乾淨語音數據上進行了微調，具有較低的詞錯誤率。

高效微調

在100小時乾淨語音數據上進行微調，顯著提升了基礎模型的識別準確率

低詞錯誤率

在評估集上取得了0.0675的詞錯誤率(WER)，表現優異

多GPU訓練

採用8個GPU進行分佈式訓練，提高了訓練效率

英語語音識別

連續語音轉文本

高準確率轉錄

語音轉錄

會議記錄自動生成

將會議錄音自動轉換為文字記錄

準確率約93.25%（基於WER 0.0675計算）

播客內容索引

為音頻播客節目生成可搜索的文字內容

輔助技術

即時字幕生成

為視頻或直播內容提供即時字幕

屬性	詳情
學習率（learning_rate）	0.0003
訓練批次大小（train_batch_size）	4
評估批次大小（eval_batch_size）	4
隨機種子（seed）	42
分佈式類型（distributed_type）	多GPU（multi - GPU）
設備數量（num_devices）	8
總訓練批次大小（total_train_batch_size）	32
總評估批次大小（total_eval_batch_size）	32
優化器（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型（lr_scheduler_type）	線性（linear）
學習率調度器熱身步數（lr_scheduler_warmup_steps）	500
訓練輪數（num_epochs）	3.0
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）

訓練損失值（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失值（Validation Loss）	字錯率（Wer）
2.8805	0.34	300	2.8686	1.0
0.2459	0.67	600	0.1858	0.1554
0.1114	1.01	900	0.1379	0.1191
0.0867	1.35	1200	0.1130	0.0961
0.0698	1.68	1500	0.1032	0.0877
0.0663	2.02	1800	0.0959	0.0785
0.0451	2.35	2100	0.0887	0.0748
0.0392	2.69	2400	0.0859	0.0698