P

Parakeet Rnnt 1.1b

由nvidia開發
Parakeet RNNT 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型,基於FastConformer Transducer架構,參數約11億,支持英語語音轉錄。
下載量 13.18k
發布時間 : 12/27/2023

模型概述

該模型用於將英語語音轉錄為小寫英文字母文本,在多個公開數據集上表現出色。

模型特點

高性能語音識別
在多個公開測試集上取得領先的詞錯誤率(WER)表現
大規模訓練數據
使用總計64K小時的英語語音數據進行訓練,包括多個公開數據集
優化的模型架構
採用FastConformer架構,具有8倍深度可分離卷積下采樣
多任務訓練
使用轉換器解碼器(RNNT)損失在多任務設置中進行訓練

模型能力

英語語音識別
音頻轉錄
自動語音轉文本

使用案例

語音轉錄
會議記錄
自動轉錄會議錄音
在AMI測試集上WER為17.10%
語音轉文字服務
為音頻內容生成文字稿
在LibriSpeech測試集上WER低至1.46%
語音助手
為語音助手提供語音識別能力
在Common Voice測試集上WER為5.79%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase