P

Parakeet Tdt 0.6b V2

由nvidia開發
擁有6億參數的自動語音識別模型,支持英文轉錄、標點符號、大小寫和時間戳預測
下載量 242.71k
發布時間 : 4/15/2025

模型概述

Parakeet TDT 0.6B V2是一款高質量的自動語音識別(ASR)模型,專為英文轉錄設計,支持精確的時間戳預測、自動標點符號和大小寫處理。

模型特點

精確時間戳預測
支持詞級、字符級和片段級的時間戳預測
自動標點符號和大小寫
自動處理轉錄文本中的標點符號和大小寫
長音頻處理能力
能夠一次性處理長達24分鐘的音頻片段
魯棒性表現
在口語數字和歌詞轉錄方面表現穩健

模型能力

語音轉文本
時間戳預測
標點符號恢復
大小寫恢復

使用案例

對話式AI
語音助手
構建支持語音交互的智能助手
轉錄服務
會議記錄
自動轉錄會議音頻
在AMI測試集上WER為11.16
字幕生成
為視頻內容自動生成字幕
語音分析
語音數據分析
分析語音數據以提取洞察
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase