P

Parakeet Ctc 0.6b

nvidiaによって開発
Parakeet CTC 0.6BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の書き起こしをサポートします。
ダウンロード数 6,528
リリース時間 : 12/28/2023

モデル概要

このモデルは高性能な自動音声認識システムで、英語音声を正確にテキストに書き起こすことができ、様々な音声認識シナリオに適用可能です。

モデル特徴

高性能音声認識
FastConformerアーキテクチャを最適化し、8倍の深さ分離可能な畳み込みダウンサンプリングを備え、効率的な音声認識能力を提供します。
大規模トレーニングデータ
64K時間の英語音声データでトレーニングされ、複数の公開および非公開データセットを含み、様々な音声シナリオをカバーします。
低単語誤り率
複数のテストセットで優れた性能を発揮し、LibriSpeechテストセットではWERが1.87%と低いです。

モデル能力

英語音声認識
音声書き起こし
16kHzモノラル音声入力をサポート

使用事例

音声書き起こし
会議議事録
会議録音を自動で書き起こし、議事録作成の効率を向上させます。
AMI会議テストセットでWERが16.3%
音声からテキストへ
音声内容を編集可能なテキスト形式に変換します。
LibriSpeechテストセットでWERが1.87%-3.76%
音声分析
音声内容分析
音声内容を分析し、キー情報を抽出します。
複数のテストセットで優れた性能を発揮
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase