S

Stt En Fastconformer Transducer Large

nvidiaによって開発
これはFastConformerアーキテクチャに基づく大規模な自動音声認識(ASR)モデルで、英語音声をテキストに転写するために特別に設計されています。
ダウンロード数 1,398
リリース時間 : 6/8/2023

モデル概要

このモデルは最適化されたFastConformerアーキテクチャとTransducerデコーダーを採用し、英語音声を効率的かつ正確にテキストに変換できます。

モデル特徴

最適化されたFastConformerアーキテクチャ
8倍の深さ分離可能畳み込みダウンサンプリングを採用し、標準Conformerモデルよりも効率的
複数データセットでのトレーニング
数千時間の英語音声を含む総合データセットでトレーニングされ、様々な音声シナリオをカバー
高性能
LibriSpeechテストセットでWER1.8%など、複数の標準テストセットで優れた性能を発揮
使いやすさ
音声転写のためのシンプルなPython APIを提供し、バッチ処理をサポート

モデル能力

英語音声認識
音声転写
バッチ音声処理

使用事例

音声転写
会議議事録
会議録音を自動的に文字起こし
メディア字幕生成
動画やポッドキャストコンテンツの字幕を自動生成
音声分析
カスタマーサポート会話分析
カスタマーサポート電話の内容を転写・分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase