W

Wav2vec2 Large Ru Golos With Lm

bond005によって開発
これはfacebook/wav2vec2-large-xlsr-53をベースに微調整されたロシア語音声認識モデルで、Sberdevices Golosデータセットを使用して訓練され、識別精度を向上させるために2-gram言語モデルが統合されています。
ダウンロード数 434
リリース時間 : 9/26/2022

モデル概要

このモデルは専用のロシア語音声認識タスク用で、16kHzのサンプリングレートの音声入力をサポートし、複数のロシア語テストセットで優れた性能を発揮します。

モデル特徴

言語モデルの統合
ロシア語テキストコーパスに基づいて構築された2-gram言語モデルが統合され、識別精度が大幅に向上しました。
データ強化訓練
訓練時にピッチ変換、音声の加速/減速、残響などの音声強化技術が適用され、モデルの堅牢性が向上しました。
複数データセットでの評価
Sberdevices Golos、Common Voiceロシア語などの複数のテストセットで全面的な評価が行われました。

モデル能力

ロシア語音声認識
音声文字起こし
音声をテキストに変換

使用事例

音声アシスタント
スマートホームコントロール
ロシア語のスマートホームデバイスの音声コマンド認識に使用されます。
遠距離テストセットでのCERは5.128%です。
音声文字起こし
会議記録の文字起こし
ロシア語の会議録音を自動的に文字起こしします。
コミュニティによるテストセットでのWERは6.883%です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase