P

Parakeet Ctc 1.1b

nvidiaによって開発
Parakeet CTC 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャを基に約11億のパラメータを持ち、英語音声の転写をサポートします。
ダウンロード数 14.78k
リリース時間 : 12/28/2023

モデル概要

このモデルは自動音声認識(ASR)システムで、音声を小文字の英語テキストに変換できます。最適化されたFastConformerアーキテクチャとCTC損失関数を使用してトレーニングされています。

モデル特徴

大規模トレーニングデータ
64K時間の英語音声データでトレーニングされており、40K時間のプライベートデータと24K時間の公開データセットを含みます
最適化されたFastConformerアーキテクチャ
8倍の深さ分離可能な畳み込みダウンサンプリングを採用したConformerの最適化バージョンで、処理効率を向上させています
マルチドメイン適応性
会議音声、電話音声、公開スピーチなど、さまざまな音声データセットで優れた性能を発揮します

モデル能力

英語音声認識
音声転写
音声からテキストへの変換

使用事例

音声転写
会議議事録
ビジネス会議の内容を自動的に転写
AMI会議テストセットでWERが15.62
電話録音の転写
電話通話の内容をテキストに変換
Switchboardデータセットで良好な性能
メディア処理
ポッドキャスト転写
ポッドキャスト番組の原稿を自動生成
LibriSpeechテストセットでWERが1.83-3.54と低い
ビデオ字幕生成
ビデオコンテンツの字幕を自動生成
VoxPopuliテストセットでWERが6.53
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase