wav2vec2-2-bart-large-no-adapter開源模型 - 免費將英語語音精準轉換為文本

Wav2vec2 2 Bart Large No Adapter

由sanchit-gandhi開發

該模型是基於LibriSpeech ASR數據集訓練的自動語音識別(ASR)模型，能夠將英語語音轉換為文本。

下載量 22

發布時間 : 3/14/2022

模型概述

這是一個從頭開始訓練的語音識別模型，專門用於英語語音轉文本任務。模型在LibriSpeech評估集上取得了1.0267的詞錯誤率(WER)。

低詞錯誤率

在LibriSpeech評估集上取得了1.0267的詞錯誤率(WER)，表現優異

端到端訓練

模型從頭開始訓練，不依賴預訓練權重

優化訓練配置

採用Adam優化器和線性學習率調度器，配合梯度累積技術進行高效訓練

英語語音識別

語音轉文本

連續語音識別

語音轉錄

有聲書轉錄

將英語有聲讀物自動轉錄為文本

高準確率的轉錄結果

會議記錄

自動記錄英語會議內容並生成文字記錄

輔助技術

即時字幕生成

為英語視頻或直播生成即時字幕

屬性	詳情
學習率（learning_rate）	3e - 05
訓練批次大小（train_batch_size）	8
評估批次大小（eval_batch_size）	8
隨機種子（seed）	42
梯度累積步數（gradient_accumulation_steps）	4
總訓練批次大小（total_train_batch_size）	32
優化器（optimizer）	Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
學習率調度器類型（lr_scheduler_type）	線性（linear）
學習率調度器熱身步數（lr_scheduler_warmup_steps）	500
訓練輪數（num_epochs）	5.0
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）

訓練損失值	輪數	步數	驗證損失值	字錯率
6.7189	0.56	500	6.9796	0.9350
6.5068	1.12	1000	6.4823	1.3923
6.4601	1.68	1500	6.1801	1.1578
6.1802	2.24	2000	6.0002	1.7750
6.0888	2.8	2500	5.8453	1.7581
6.0993	3.36	3000	5.7702	1.4096
6.0851	3.92	3500	5.6634	1.0944
5.9357	4.48	4000	5.6120	1.0267