W

Wav2vec2 Large Robust Ft Libritts Voxpopuli

由jbetker開發
基於wav2vec2-large的語音識別模型,專為生成帶標點符號的轉錄文本設計,適用於TTS模型構建。
下載量 339.01k
發布時間 : 3/2/2022

模型概述

該模型通過微調facebook/wav2vec2-large-robust-ft-libri-960h檢查點,新增標點符號詞彙表,專注於生成帶標點符號的轉錄文本,尤其適合需要韻律表現的TTS應用。

模型特點

標點符號生成
專為生成帶標點符號的轉錄文本設計,對TTS模型的韻律表現至關重要。
高準確率
在librispeech驗證集上取得4.45%的詞錯率(WER),接近基線模型的4.3%。
純淨音頻優化
在libritts和voxpopuli等純淨音頻數據集上微調,適合高質量音頻轉錄。

模型能力

語音轉文本
標點符號插入
高質量音頻轉錄

使用案例

文本轉語音(TTS)
TTS模型轉錄構建
為TTS模型生成帶標點符號的轉錄文本,提升韻律表現。
改善TTS輸出的自然度和表達力。
語音轉錄
高質量音頻轉錄
適用於libritts等純淨音頻的轉錄任務。
4.45%的詞錯率(WER)。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase