S

Stt Ru Conformer Ctc Large

nvidiaによって開発
これはロシア語の自動音声認識用の大規模なConformer-CTCモデルで、約1636時間のロシア語音声データでトレーニングされ、約1.2億のパラメータを持っています。
ダウンロード数 452
リリース時間 : 11/1/2022

モデル概要

このモデルはロシア語の音声をスペースを含む小文字のキリル文字テキストに変換し、ConformerアーキテクチャとCTC損失関数を使用しており、高品質な音声テキスト変換アプリケーションに適しています。

モデル特徴

高性能ロシア語認識
Common Voice 10.0テストセットでWER4.28%など、複数のロシア語テストセットで優れた性能を発揮
大規模トレーニングデータ
約1636時間のロシア語音声データでトレーニングされ、複数のソースのデータセットを含む
非自己回帰アーキテクチャ
Conformer-CTCアーキテクチャを採用し、効率的な単一フォワード推論を実現
多様なアプリケーションシーンに対応
近距離および遠距離音声認識に適し、crowdやfarfieldシーンでも良好な性能を発揮

モデル能力

ロシア語音声認識
リアルタイム音声テキスト変換
16kHzモノラル音声入力に対応

使用事例

音声文字起こし
会議議事録
ロシア語の会議録音を自動的に文字起こし
高精度な文字起こし結果
音声アシスタント
ロシア語音声アシスタントに音声認識機能を提供
低遅延のインタラクション体験
メディア処理
動画字幕生成
ロシア語の動画コンテンツに自動的に字幕を生成
95%以上の高精度な字幕
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase