P

Parakeet Rnnt 0.6b

由nvidia開發
Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 聯合開發的自動語音識別模型,基於 FastConformer 架構,擁有約 6 億參數,專門用於將英語語音轉錄為文本。
下載量 92.27k
發布時間 : 12/28/2023

模型概述

該模型是一個高性能的自動語音識別系統,能夠準確地將英語語音轉換為小寫英文字母文本。它在多種公開和私有數據集上進行了訓練,適用於廣泛的語音識別場景。

模型特點

高性能 FastConformer 架構
採用優化的 FastConformer 架構,具有 8 倍深度可分離卷積下采樣,提供高效的語音識別能力。
大規模訓練數據
在 64K 小時的英語語音數據上訓練,包括多種公開和私有數據集,確保模型的廣泛適用性。
多任務訓練
使用轉換器解碼器 (RNNT) 損失進行多任務訓練,提高了模型的識別準確率。

模型能力

英語語音識別
高精度文本轉錄
支持多種音頻格式

使用案例

語音轉文本
會議記錄
自動轉錄會議錄音,生成文字記錄。
在 AMI 會議測試集上 WER 為 17.55
語音助手
為語音助手提供準確的語音識別能力。
在 LibriSpeech 測試集上 WER 低至 1.63-3.06
媒體字幕生成
自動為視頻和音頻內容生成字幕。
在 TEDLIUM-v3 上 WER 為 3.86
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase