P

Parakeet Rnnt 0.6b

nvidiaによって開発
Parakeet RNNT 0.6B は、NVIDIA NeMo と Suno.ai が共同開発した自動音声認識モデルで、FastConformer アーキテクチャを基にし、約6億のパラメータを持ち、英語音声をテキストに転写するために特別に設計されています。
ダウンロード数 92.27k
リリース時間 : 12/28/2023

モデル概要

このモデルは高性能な自動音声認識システムで、英語音声を小文字の英語テキストに正確に変換できます。多くの公開および非公開データセットで訓練されており、幅広い音声認識シナリオに適用可能です。

モデル特徴

高性能 FastConformer アーキテクチャ
最適化された FastConformer アーキテクチャを採用し、8倍の深さ分離可能な畳み込みダウンサンプリングを備え、効率的な音声認識能力を提供します。
大規模訓練データ
64K時間の英語音声データで訓練されており、さまざまな公開および非公開データセットを含むため、モデルの広範な適用性が保証されています。
マルチタスク訓練
トランスフォーマーデコーダー (RNNT) 損失を使用したマルチタスク訓練により、モデルの認識精度が向上しました。

モデル能力

英語音声認識
高精度テキスト転写
複数の音声フォーマットをサポート

使用事例

音声からテキストへ
会議議事録
会議の録音を自動的に転写し、文字記録を生成します。
AMI会議テストセットで WER 17.55
音声アシスタント
音声アシスタントに正確な音声認識能力を提供します。
LibriSpeechテストセットで WER 1.63-3.06
メディア字幕生成
ビデオやオーディオコンテンツの字幕を自動生成します。
TEDLIUM-v3で WER 3.86
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase