S

Stt En Fastconformer Hybrid Large Streaming Multi

nvidiaによって開発
マルチルックアヘッドウィンドウをサポートするキャッシュ認識型FastConformer-Hybrid大規模モデルで、ストリーミング自動音声認識向けに設計されており、様々なレイテンシシナリオに対応可能
ダウンロード数 1,400
リリース時間 : 10/5/2023

モデル概要

大規模英語音声データでトレーニングされたストリーミング自動音声認識モデルで、ハイブリッドFastConformerアーキテクチャを採用し、柔軟なレイテンシ調整をサポート

モデル特徴

マルチレイテンシストリーミング処理
0ms/80ms/480ms/1040msの4つのレイテンシレベルをサポートし、実際のレイテンシは公称値の約半分
ハイブリッドアーキテクチャ
TransducerとCTCデコーダの利点を組み合わせ、実行時のデコード戦略切り替えをサポート
キャッシュ認識技術
先進的なキャッシュメカニズムによりストリーミング処理を実現し、オフラインとストリーミングモードの予測一貫性を維持
大規模トレーニングデータ
数千時間の多様な英語音声データに基づくトレーニングで、様々なシナリオとアクセントをカバー

モデル能力

リアルタイム音声テキスト変換
ストリーミングオーディオ処理
低レイテンシ音声認識
マルチシナリオ音声転写

使用事例

リアルタイム転写
会議リアルタイム字幕
オンライン会議向けに低レイテンシでリアルタイム字幕を提供
480msレイテンシでWER 5.7%
カスタマーサポート音声分析
品質管理分析のために対話音声をリアルタイム転写
様々なシナリオのニーズに応じてレイテンシを動的に調整可能
メディア処理
動画字幕生成
メディアコンテンツ向けに高精度な字幕を自動生成
1040msモードでWER 5.4%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase