wav2vec2-2-bart-base開源語音識別模型 - 免費部署精準識別語音內容

Wav2vec2 2 Bart Base

由patrickvonplaten開發

基於wav2vec2-base和bart-base在LibriSpeech ASR clean數據集上微調的語音識別模型

下載量 493

發布時間 : 3/2/2022

模型概述

該模型結合了wav2vec2的語音特徵提取能力和BART的序列到序列轉換能力，專注於英語語音識別任務

混合架構

結合了wav2vec2的語音特徵提取和BART的序列轉換能力

高效微調

在LibriSpeech ASR clean數據集上進行了優化

多GPU訓練

支持分佈式訓練，提高訓練效率

英語語音識別

音頻轉文本

序列到序列轉換

語音轉錄

會議記錄

將會議錄音轉換為文字記錄

播客轉錄

將播客音頻內容轉換為文本

輔助技術

即時字幕生成

為視頻或直播生成即時字幕

屬性	詳情
學習率（learning_rate）	0.0003
訓練批次大小（train_batch_size）	8
評估批次大小（eval_batch_size）	8
隨機種子（seed）	42
分佈式類型（distributed_type）	多GPU
設備數量（num_devices）	8
總訓練批次大小（total_train_batch_size）	64
總評估批次大小（total_eval_batch_size）	64
優化器（optimizer）	Adam（β1=0.9，β2=0.999，ε=1e - 08）
學習率調度器類型（lr_scheduler_type）	線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）	400
訓練輪數（num_epochs）	5
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）