S

Stt En Fastconformer Transducer Xlarge

nvidiaによって開発
NVIDIA FastConformer-Transducerは、英語の自動音声認識(ASR)向けの高性能モデルで、最適化されたFastConformerアーキテクチャとTransducerデコーダを採用し、パラメータ規模は約6.18億です。
ダウンロード数 106
リリース時間 : 6/12/2023

モデル概要

このモデルは音声を小文字の英字に変換し、FastConformer Transducerモデルの'超大'バージョンで、複数の英語音声データセットで訓練され、優れた認識精度を有します。

モデル特徴

最適化されたFastConformerアーキテクチャ
8倍の深さ分離可能な畳み込みダウンサンプリングを採用した最適化Conformerアーキテクチャで、処理効率を向上
複数データセット訓練
数千時間の英語音声を含む複合データセットで訓練され、様々な音声シナリオをカバー
高精度
複数のテストセットで優れた性能を発揮し、LibriSpeechテストセットではWERが1.64%と低い
Transducerデコーダ
RNNT損失を使用してマルチタスク設定で訓練され、認識効果を向上

モデル能力

英語音声認識
音声文字起こし
音声からテキストへの変換

使用事例

音声文字起こし
会議議事録
会議録音を自動的に文字起こし
高精度な文字記録、WERは1.64%と低い
音声アシスタント
音声アシスタントに音声認識機能を提供
様々な音声シナリオに対応した正確な認識
メディア処理
動画字幕生成
動画コンテンツに自動的に字幕を生成
様々なアクセントや話し方の認識に対応
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase