P

Parakeet Tdt Ctc 110m

nvidiaによって開発
NVIDIA NeMoとSuno.aiが共同開発した英語音声認識モデルで、句読点と大文字小文字変換をサポートし、FastConformer-TDT-CTCアーキテクチャを採用
ダウンロード数 50.47k
リリース時間 : 9/17/2024

モデル概要

これは句読点と大文字小文字を含む英語音声を文字起こしできる自動音声認識(ASR)モデルで、ハイブリッドFastConformer TDT-CTCアーキテクチャに基づき、パラメータ規模は約1.14億

モデル特徴

効率的な長音声処理
全注意機構のfastconformerアーキテクチャを採用し、最大20分の音声を一度に処理可能
高速推論速度
A100上で平均RTFx約5300を達成し、超高速推論を実現
句読点と大文字小文字変換
句読点と大文字小文字を含む英語音声を文字起こし可能
大規模トレーニングデータ
36,000時間の英語音声データを使用してトレーニングし、プライベートと公開データセットを含む

モデル能力

英語音声認識
句読点変換
大文字小文字変換
長音声処理

使用事例

音声文字起こし
会議議事録の文字起こし
会議録音を句読点付きのテキスト記録に変換
AMI会議テストセットでWER15.88%
ポッドキャスト文字起こし
ポッドキャスト音声コンテンツをテキストに変換
LibriSpeechテストセットでWER2.4-5.2%
音声分析
金融決算電話会議分析
企業の決算電話会議内容を分析
Earnings-22データセットでWER12.42%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase