P

Parakeet Tdt Ctc 1.1b

nvidiaによって開発
Parakeet TDT-CTC 1.1Bは、句読点と大文字小文字を含む英語音声を文字起こしできる自動音声認識モデルで、NVIDIA NeMoとSuno.aiが共同開発しました。
ダウンロード数 35.19k
リリース時間 : 5/7/2024

モデル概要

このモデルはHybrid FastConformer TDT-CTCアーキテクチャの自動音声認識モデルで、最長11時間の音声文字起こしタスクを効率的に処理できます。

モデル特徴

効率的な長音声処理
最長11時間の音声を一度に文字起こし可能で、A100上で90分の音声を16秒未満で処理できます。
高精度な文字起こし
複数のテストデータセットで優れた性能を発揮し、LibriSpeechテストセットではWERが1.82%と低いです。
句読点と大文字小文字のサポート
句読点と適切な大文字小文字を自動的に認識・追加できます。

モデル能力

英語音声認識
長音声文字起こし
句読点自動追加
大文字小文字自動認識

使用事例

音声文字起こし
会議議事録
ビジネス会議の内容を自動的に文字起こし
AMI会議テストセットでWER15.94%
学術講義記録
大学講義や学術講演を文字起こし
TEDLIUM-v3テストセットでWER3.87%
メディアコンテンツ処理
ポッドキャスト文字起こし
ポッドキャスト内容を自動的にテキスト化
Vox PopuliテストセットでWER6.19%
映像字幕生成
映像コンテンツの字幕を生成
LibriSpeechテストセットでWER1.82%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase