P

Parakeet Tdt 1.1b

由nvidia開發
Parakeet TDT 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別(ASR)模型,能夠將語音轉錄為小寫英文字母。
下載量 12.27k
發布時間 : 1/25/2024

模型概述

這是一個基於FastConformer-TDT架構的自動語音識別模型,具有約11億參數,專為高效語音轉錄而設計。

模型特點

高效架構
採用FastConformer-TDT架構,通過8倍深度可分離卷積下采樣優化性能
快速推理
TDT(標記和持續時間轉換器)設計顯著提高推理速度
大規模訓練
在64K小時的英文語音數據上訓練,包括多種公共和私有數據集
多領域適用
在多種測試數據集上表現優異,適用於不同領域的語音識別任務

模型能力

語音識別
音頻轉錄
英語語音處理

使用案例

語音轉錄
會議記錄
自動轉錄會議音頻內容
在AMI測試集上WER為15.90
語音轉文字
將語音內容轉換為可編輯文本
在LibriSpeech測試集上WER低至1.39
語音分析
語音數據分析
處理和分析大規模語音數據
在GigaSpeech測試集上WER為9.55
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase