P

Parakeet Rnnt 1.1b

nvidiaによって開発
Parakeet RNNT 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformer Transducerアーキテクチャに基づき、約11億のパラメータを持ち、英語音声の書き起こしをサポートします。
ダウンロード数 13.18k
リリース時間 : 12/27/2023

モデル概要

このモデルは英語音声を小文字の英語テキストに変換するために使用され、複数の公開データセットで優れた性能を示します。

モデル特徴

高性能音声認識
複数の公開テストセットでリーディングな単語誤り率(WER)を達成
大規模トレーニングデータ
合計64K時間の英語音声データを使用してトレーニングされ、複数の公開データセットを含む
最適化されたモデルアーキテクチャ
FastConformerアーキテクチャを採用し、8倍の深さ分離可能な畳み込みダウンサンプリングを備える
マルチタスクトレーニング
トランスフォーマーデコーダー(RNNT)損失を使用してマルチタスク設定でトレーニング

モデル能力

英語音声認識
音声書き起こし
自動音声テキスト変換

使用事例

音声書き起こし
会議議事録
会議録音を自動的に書き起こす
AMIテストセットでWER 17.10%
音声テキスト変換サービス
音声コンテンツのテキスト原稿を生成
LibriSpeechテストセットでWER 1.46%
音声アシスタント
音声アシスタントに音声認識機能を提供
Common VoiceテストセットでWER 5.79%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase