P

Parakeet Tdt 0.6b V2

nvidiaによって開発
6億パラメータを持つ自動音声認識モデルで、英語の文字起こし、句読点、大文字小文字、タイムスタンプ予測をサポート
ダウンロード数 242.71k
リリース時間 : 4/15/2025

モデル概要

Parakeet TDT 0.6B V2は高品質な自動音声認識(ASR)モデルで、英語の文字起こし用に設計されており、正確なタイムスタンプ予測、自動句読点と大文字小文字処理をサポートします。

モデル特徴

正確なタイムスタンプ予測
単語レベル、文字レベル、セグメントレベルのタイムスタンプ予測をサポート
自動句読点と大文字小文字
文字起こしテキストの句読点と大文字小文字を自動処理
長音声処理能力
最大24分間の音声を一度に処理可能
頑健な性能
話し言葉の数字や歌詞の文字起こしで安定した性能を発揮

モデル能力

音声からテキストへの変換
タイムスタンプ予測
句読点復元
大文字小文字復元

使用事例

対話型AI
音声アシスタント
音声インタラクションをサポートするスマートアシスタントの構築
文字起こしサービス
会議議事録
会議音声の自動文字起こし
AMIテストセットでWER11.16
字幕生成
動画コンテンツの自動字幕生成
音声分析
音声データ分析
音声データを分析してインサイトを抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase