P

Parakeet Tdt 1.1b

nvidiaによって開発
Parakeet TDT 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識(ASR)モデルで、音声を小文字の英字に文字起こしできます。
ダウンロード数 12.27k
リリース時間 : 1/25/2024

モデル概要

これはFastConformer-TDTアーキテクチャに基づく自動音声認識モデルで、約11億のパラメータを持ち、効率的な音声文字起こしのために設計されています。

モデル特徴

高効率アーキテクチャ
FastConformer-TDTアーキテクチャを採用し、8倍の深さ分離可能畳み込みダウンサンプリングで性能を最適化
高速推論
TDT(トークン・デュレーション・トランスフォーマー)設計により推論速度を大幅に向上
大規模トレーニング
64K時間の英語音声データでトレーニングされ、様々な公開・非公開データセットを含む
多分野適用
様々なテストデータセットで優れた性能を発揮し、異なる分野の音声認識タスクに適応

モデル能力

音声認識
音声文字起こし
英語音声処理

使用事例

音声文字起こし
会議議事録
会議の音声内容を自動的に文字起こし
AMIテストセットでWER15.90を達成
音声テキスト化
音声内容を編集可能なテキストに変換
LibriSpeechテストセットでWER1.39の低誤り率を実現
音声分析
音声データ分析
大規模音声データの処理と分析
GigaSpeechテストセットでWER9.55を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase