A

Asr Wav2vec2 Librispeech

由speechbrain開發
這是一個基於LibriSpeech數據集訓練的端到端自動語音識別系統,結合了wav2vec 2.0預訓練模型和CTC技術,在英語語音識別任務上表現出色。
下載量 1,667
發布時間 : 6/5/2022

模型概述

該模型是一個英語自動語音識別系統,使用wav2vec 2.0預訓練模型結合CTC技術,在LibriSpeech數據集上微調而成。它能將英語語音準確轉換為文本。

模型特點

高精度語音識別
在LibriSpeech測試集上達到1.90% (乾淨)和3.96% (其他)的詞錯誤率(WER)
預訓練模型微調
基於facebook/wav2vec2-large-960h-lv60-self預訓練模型,在LibriSpeech上進一步微調
端到端系統
包含完整的分詞器和聲學模型,可直接用於語音轉文本任務
易於使用
提供簡單的API接口,只需幾行代碼即可實現語音轉錄

模型能力

英語語音識別
音頻轉錄
自動語音轉文本

使用案例

語音轉錄
會議記錄
將會議錄音自動轉換為文字記錄
高準確率的轉錄結果
語音筆記
將語音備忘錄轉換為可搜索的文本
輔助技術
即時字幕生成
為視頻或直播內容生成即時字幕
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase