S

Stt En Citrinet 1024 Gamma 0 25

nvidiaによって開発
NVIDIAストリーミングCitrinet 1024は、英語の自動音声認識のための非自己回帰モデルで、CTC損失/デコードに基づき、約1.4億のパラメータを持っています。
ダウンロード数 156
リリース時間 : 6/24/2022

モデル概要

このモデルは、スペースやアポストロフィを含む小文字の英語アルファベット音声を書き起こすために使用され、数千時間の英語音声データでトレーニングされています。これはストリーミングCitrinetの「大規模」な非自己回帰バリアントです。

モデル特徴

ストリーミング処理能力
ストリーミング音声認識をサポートし、リアルタイムアプリケーションに適しています
高性能
LibriSpeechテストセットでWERが3.4-7.6と、複数の標準テストセットで優れた性能を発揮
大規模トレーニングデータ
LibriSpeech、Fisherなど数千時間の英語音声データに基づいてトレーニング
Riva互換
NVIDIA Rivaと統合可能で、プロダクションレベルのサーバー展開に使用可能

モデル能力

英語音声認識
リアルタイム音声書き起こし
バッチ音声処理

使用事例

音声からテキストへ
会議議事録
会議録音を自動的にテキスト記録に変換
高精度な書き起こし結果
字幕生成
ビデオコンテンツに自動的に英語字幕を生成
バッチ音声ファイル処理をサポート
音声アシスタント
音声コマンド認識
スマートデバイスの音声コマンド認識システムに使用
低遅延のリアルタイム認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase