W

Wav2vec2 Base Toy Train Data Slow 10pct

由scasutt開發
基於facebook/wav2vec2-base模型在未知數據集上微調的語音識別模型,詞錯誤率(WER)為0.7175
下載量 22
發布時間 : 3/27/2022

模型概述

該模型是wav2vec2-base的微調版本,主要用於語音識別任務。模型在評估集上表現出一定的識別能力,但仍有改進空間。

模型特點

基於wav2vec2-base微調
在基礎wav2vec2模型上進行微調,適應特定語音識別任務
線性學習率調度
採用線性學習率調度策略,配合1000步的預熱期
梯度累積訓練
使用梯度累積(步數=2)來增加有效批次大小

模型能力

語音轉文本
自動語音識別

使用案例

語音轉錄
會議記錄轉錄
將會議錄音轉換為文字記錄
詞錯誤率0.7175
語音指令識別
識別簡單的語音指令
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase