P

Parakeet Tdt 0.6b V2

Developed by nvidia
擁有6億參數的自動語音識別模型,支持英文轉錄、標點符號、大小寫和時間戳預測
Downloads 242.71k
Release Time : 4/15/2025

Model Overview

Parakeet TDT 0.6B V2是一款高質量的自動語音識別(ASR)模型,專為英文轉錄設計,支持精確的時間戳預測、自動標點符號和大小寫處理。

Model Features

精確時間戳預測
支持詞級、字符級和片段級的時間戳預測
自動標點符號和大小寫
自動處理轉錄文本中的標點符號和大小寫
長音頻處理能力
能夠一次性處理長達24分鐘的音頻片段
魯棒性表現
在口語數字和歌詞轉錄方面表現穩健

Model Capabilities

語音轉文本
時間戳預測
標點符號恢復
大小寫恢復

Use Cases

對話式AI
語音助手
構建支持語音交互的智能助手
轉錄服務
會議記錄
自動轉錄會議音頻
在AMI測試集上WER為11.16
字幕生成
為視頻內容自動生成字幕
語音分析
語音數據分析
分析語音數據以提取洞察
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase