P

Parakeet Tdt Ctc 1.1b

由nvidia開發
Parakeet TDT-CTC 1.1B 是一個自動語音識別模型,能夠轉錄帶有標點和大小寫的英文語音,由NVIDIA NeMo和Suno.ai聯合開發。
下載量 35.19k
發布時間 : 5/7/2024

模型概述

該模型是一個Hybrid FastConformer TDT-CTC架構的自動語音識別模型,能夠高效處理長達11小時的音頻轉錄任務。

模型特點

高效長音頻處理
能夠一次性轉錄長達11小時的音頻,在A100上轉錄90分鐘音頻僅需不到16秒。
高精度轉錄
在多個測試數據集上表現出色,如LibriSpeech測試集上WER低至1.82%。
標點和大小寫支持
能夠自動識別並添加標點符號和正確的大小寫格式。

模型能力

英語語音識別
長音頻轉錄
標點自動添加
大小寫自動識別

使用案例

語音轉錄
會議記錄
自動轉錄商務會議內容
在AMI會議測試集上WER為15.94%
學術講座記錄
轉錄大學講座或學術演講
在TEDLIUM-v3測試集上WER為3.87%
媒體內容處理
播客轉錄
將播客內容自動轉為文字
在Vox Populi測試集上WER為6.19%
影視字幕生成
為影視內容生成字幕
在LibriSpeech測試集上WER低至1.82%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase