S

Stt En Conformer Transducer Xlarge

nvidiaによって開発
これはNVIDIAが開発した自動音声認識(ASR)モデルで、Conformer-Transducerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の転写専用に設計されています。
ダウンロード数 496
リリース時間 : 6/13/2022

モデル概要

このモデルは音声を小文字の英字、スペース、アポストロフィを含めて転写し、Conformer-Transducerモデルの'超大'バージョンです。

モデル特徴

高性能音声認識
LibriSpeech cleanテストセットでWER1.62%など、複数のテストセットで優れた性能を発揮
大規模訓練データ
数千時間の英語音声を含む複合データセット(NeMo ASRSET)で訓練
多様な音声形式対応
16KHzモノラル音声(wavファイル)を入力として受け付け

モデル能力

英語音声認識
音声転写
自動音声テキスト変換

使用事例

音声転写
会議議事録
会議録音を自動的に文字記録に転写
高精度な転写結果
音声メモ変換
音声メモを検索可能なテキストに変換
音声アシスタント
音声コマンド認識
スマートデバイス向け音声コマンド認識システム
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase