wav2vec2-base-libriSpeech開源語音識別模型 - 低錯誤率精準識別語音內容

Wav2vec2 Base Librispeech Demo Colab

由vishwasgautam開發

該模型是基於facebook/wav2vec2-base在LibriSpeech數據集上微調的語音識別模型，在評估集上取得了0.3174的詞錯誤率。

下載量 14

發布時間 : 4/25/2025

模型概述

這是一個用於語音識別任務的微調模型，基於wav2vec2架構，適用於英語語音轉文本任務。

基於wav2vec2架構

採用facebook的wav2vec2-base作為基礎模型，具有良好的語音特徵提取能力

低詞錯誤率

在評估集上取得了0.3174的詞錯誤率，表現良好

高效訓練

使用混合精度訓練(原生AMP)和線性學習率調度器，訓練效率高

英語語音識別

語音轉文本

語音轉錄

會議記錄轉錄

將英語會議錄音自動轉錄為文字記錄

詞錯誤率約31.74%

播客內容轉錄

將英語播客內容自動轉換為文字稿