P

Parakeet Tdt Ctc 110m

由nvidia開發
由NVIDIA NeMo和Suno.ai聯合開發的英語語音識別模型,支持標點符號和大小寫轉換,採用FastConformer-TDT-CTC架構
下載量 50.47k
發布時間 : 9/17/2024

模型概述

這是一個能夠轉寫帶標點符號和大小寫的英語語音的自動語音識別(ASR)模型,基於混合FastConformer TDT-CTC架構,參數規模約1.14億

模型特點

高效長音頻處理
採用全注意力機制的fastconformer架構,可單次處理長達20分鐘的音頻
快速推理速度
在A100上平均RTFx約為5300,實現超快推理速度
標點符號和大小寫轉換
能夠轉寫帶標點符號和大小寫的英語語音
大規模訓練數據
使用36,000小時英語語音數據訓練,包含私有和公開數據集

模型能力

英語語音識別
標點符號轉換
大小寫轉換
長音頻處理

使用案例

語音轉錄
會議記錄轉錄
將會議錄音轉換為帶標點符號的文本記錄
在AMI會議測試集上WER為15.88%
播客轉錄
將播客音頻內容轉換為文本
在LibriSpeech測試集上WER為2.4-5.2%
語音分析
金融收益電話會議分析
分析公司收益電話會議內容
在Earnings-22數據集上WER為12.42%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase