wav2vec2-large-robust-ft-libritts-voxpopuli開源語音識別模型 - 生成帶標點轉錄文本，助力TTS構建

首頁

Wav2vec2 Large Robust Ft Libritts Voxpopuli

由jbetker開發

基於wav2vec2-large的語音識別模型，專為生成帶標點符號的轉錄文本設計，適用於TTS模型構建。

語音識別

Transformers

#TTS韻律優化 #標點符號轉錄 #純淨音頻適配

下載量 339.01k

發布時間 : 3/2/2022

模型概述

該模型通過微調facebook/wav2vec2-large-robust-ft-libri-960h檢查點，新增標點符號詞彙表，專注於生成帶標點符號的轉錄文本，尤其適合需要韻律表現的TTS應用。

模型特點

標點符號生成

專為生成帶標點符號的轉錄文本設計，對TTS模型的韻律表現至關重要。

高準確率

在librispeech驗證集上取得4.45%的詞錯率（WER），接近基線模型的4.3%。

純淨音頻優化

在libritts和voxpopuli等純淨音頻數據集上微調，適合高質量音頻轉錄。

模型能力

語音轉文本

標點符號插入

高質量音頻轉錄

使用案例

文本轉語音（TTS）

TTS模型轉錄構建

為TTS模型生成帶標點符號的轉錄文本，提升韻律表現。

改善TTS輸出的自然度和表達力。

語音轉錄

高質量音頻轉錄

適用於libritts等純淨音頻的轉錄任務。

4.45%的詞錯率（WER）。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 Large Robust Ft Libritts Voxpopuli

模型概述

模型特點

模型能力

使用案例

🚀 語音轉錄模型

🚀 快速開始

✨ 主要特性

🔧 技術細節

💻 使用示例