P

Parakeet Ctc 1.1b

由nvidia開發
Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型,基於FastConformer架構,擁有約11億參數,支持英語語音轉錄。
下載量 14.78k
發布時間 : 12/28/2023

模型概述

該模型是一個自動語音識別(ASR)系統,能夠將語音轉換為小寫英文字母文本。它採用了優化的FastConformer架構和CTC損失函數進行訓練。

模型特點

大規模訓練數據
在64K小時的英語語音數據上訓練,包括40K小時私有數據和24K小時公共數據集
優化的FastConformer架構
採用8倍深度可分離卷積下采樣的Conformer優化版本,提高處理效率
多領域適應性
在多種語音數據集上表現優異,包括會議語音、電話語音和公開演講等不同場景

模型能力

英語語音識別
音頻轉錄
語音轉文本

使用案例

語音轉錄
會議記錄
自動轉錄商務會議內容
在AMI會議測試集上WER為15.62
電話錄音轉寫
將電話通話內容轉換為文本
在Switchboard數據集上表現良好
媒體處理
播客轉錄
自動生成播客節目的文字稿
在LibriSpeech測試集上WER低至1.83-3.54
視頻字幕生成
為視頻內容自動生成字幕
在VoxPopuli測試集上WER為6.53
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase