W

Wav2vec2 2 Bart Large Tedlium

由sanchit-gandhi開發
基於TEDLIUM語料庫訓練的序列到序列自動語音識別模型,結合Wav2Vec2語音編碼器和Bart文本解碼器
下載量 111
發布時間 : 6/29/2022

模型概述

該模型用於英語語音識別任務,採用Wav2Vec2作為語音編碼器和Bart作為文本解碼器的混合架構,在TED演講數據集上表現出色

模型特點

混合架構
結合Wav2Vec2語音編碼器和Bart文本解碼器的優勢,實現高效語音識別
高性能
在TEDLIUM測試集上達到6.4%的詞錯誤率(WER),表現優異
預訓練初始化
編碼器和解碼器分別使用Wav2Vec2 LV-60k和Bart large的預訓練權重初始化

模型能力

英語語音識別
長音頻處理
高質量轉錄

使用案例

會議記錄
TED演講轉錄
將TED演講音頻自動轉換為文字稿
測試集詞錯誤率6.4%
教育
講座錄音轉錄
將學術講座錄音轉換為文字用於筆記或字幕
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase