wav2vec2_s-f-o_8batch_5sec_0.0001lr_unfrozen開源語音處理模型

Wav2vec2 S F O 8batch 5sec 0.0001lr Unfrozen

由reralle開發

基於facebook/wav2vec2-large微調的語音處理模型，支持語音識別任務

下載量 21

發布時間 : 5/5/2023

模型概述

該模型是基於facebook/wav2vec2-large架構微調的版本，主要用於語音相關任務，在評估集上取得了66.67%的準確率和67.42%的F1值。

高效微調

基於預訓練的wav2vec2-large模型進行微調，充分利用了大規模預訓練的優勢

優化訓練

採用8的批次大小和0.0001的學習率進行訓練，確保了訓練穩定性

線性學習率調度

使用線性學習率調度器配合0.003的預熱比例，優化了訓練過程

語音識別

音頻特徵提取

語音處理

語音轉文本

將語音信號轉換為文本內容

在評估集上達到66.67%的準確率