S

Stt En Conformer Transducer Xlarge

Developed by nvidia
これはNVIDIAが開発した自動音声認識(ASR)モデルで、Conformer-Transducerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の転写専用に設計されています。
Downloads 496
Release Time : 6/13/2022

Model Overview

このモデルは音声を小文字の英字、スペース、アポストロフィを含めて転写し、Conformer-Transducerモデルの'超大'バージョンです。

Model Features

高性能音声認識
LibriSpeech cleanテストセットでWER1.62%など、複数のテストセットで優れた性能を発揮
大規模訓練データ
数千時間の英語音声を含む複合データセット(NeMo ASRSET)で訓練
多様な音声形式対応
16KHzモノラル音声(wavファイル)を入力として受け付け

Model Capabilities

英語音声認識
音声転写
自動音声テキスト変換

Use Cases

音声転写
会議議事録
会議録音を自動的に文字記録に転写
高精度な転写結果
音声メモ変換
音声メモを検索可能なテキストに変換
音声アシスタント
音声コマンド認識
スマートデバイス向け音声コマンド認識システム
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase