S

Stt En Conformer Ctc Large

nvidiaによって開発
これはConformerアーキテクチャに基づく大規模な自動音声認識(ASR)モデルで、英語音声の文字起こしをサポートし、CTC損失関数を使用して訓練されています。
ダウンロード数 3,740
リリース時間 : 4/9/2022

モデル概要

このモデルは英語音声をテキストに変換するために使用され、スペースやアポストロフィを含む小文字の出力をサポートします。Conformerアーキテクチャの非自己回帰バリアントで、約1.2億のパラメータを持ちます。

モデル特徴

高性能音声認識
LibriSpeechテストセットで2.2%(クリーン)と4.3%(その他)の単語誤り率(WER)を達成
複数データセット訓練
数千時間の英語音声データで訓練されており、LibriSpeech、Fisher、Switchboardなどの複数のデータセットを含む
Riva互換
NVIDIA Rivaを介したプロダクションレベルのサーバー展開をサポート
非自己回帰アーキテクチャ
Conformer-CTCアーキテクチャを採用しており、自己回帰モデルに比べてより高速な推論が可能

モデル能力

英語音声認識
リアルタイム音声文字起こし
16kHzモノラル音声入力をサポート

使用事例

音声文字起こし
会議議事録
会議録音を自動的に文字起こし
高い精度の文字起こし結果、複数のアクセントをサポート
字幕生成
ビデオコンテンツに自動的に英語字幕を生成
クリーンな音声ではWERが2.2%まで低い
音声アシスタント
音声コマンド認識
スマートホームデバイスの音声制御に使用
迅速かつ正確なコマンド認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase