P

Parakeet Ctc 0.6b

Developed by nvidia
Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型,基於FastConformer架構,擁有約6億參數,支持英語語音轉錄。
Downloads 6,528
Release Time : 12/28/2023

Model Overview

該模型是一個高性能的自動語音識別系統,能夠將英語語音準確轉錄為文本,適用於多種語音識別場景。

Model Features

高性能語音識別
基於FastConformer架構優化,具有8倍深度可分離卷積下采樣,提供高效的語音識別能力。
大規模訓練數據
在64K小時的英語語音數據上訓練,包括多個公共和私有數據集,覆蓋多種語音場景。
低詞錯誤率
在多個測試集上表現出色,如LibriSpeech測試集上WER低至1.87%。

Model Capabilities

英語語音識別
音頻轉錄
支持16kHz單聲道音頻輸入

Use Cases

語音轉錄
會議記錄
自動轉錄會議錄音,提高會議記錄效率。
在AMI會議測試集上WER為16.3%
語音轉文字
將語音內容轉換為可編輯的文本格式。
在LibriSpeech測試集上WER為1.87%-3.76%
語音分析
語音內容分析
分析語音內容,提取關鍵信息。
在多個測試集上表現優異
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase