S

Stt Ru Conformer Transducer Large

nvidiaによって開発
これはConformerアーキテクチャに基づく非自己回帰型の大型ロシア語音声認識モデルで、パラメータは約1.2億、訓練データは約1636時間のロシア語音声です。
ダウンロード数 537
リリース時間 : 10/24/2022

モデル概要

このモデルはロシア語の音声を空白を含む小文字のキリル文字に文字起こしでき、ロシア語音声認識タスクに適しています。

モデル特徴

複数データセット訓練
複数のロシア語音声データセットで訓練されており、Mozilla Common Voice 10.0、SberDevices/Golos、Russian-LibriSpeech、SOVA-Datasetなどが含まれます。
非自己回帰アーキテクチャ
Conformerの非自己回帰型の「大型」バリエーションを採用し、約1.2億個のパラメータがあります。
使いやすい
NeMoツールキットで使用でき、モデルの自動インスタンス化と音声の文字起こしをサポートします。

モデル能力

ロシア語音声認識
音声文字起こし
音声をテキストに変換

使用事例

音声文字起こし
ロシア語音声文字起こし
ロシア語の音声をテキストに変換
精度が高く、MCV 10.0テストセットでのWERは4.0%です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase