W

Wav2vec2 Large Ru Golos

bond005によって開発
facebook/wav2vec2-large-xlsr-53をファインチューニングしたロシア語音声認識モデル。Sberdevices Golosデータセットでトレーニングされ、16kHz音声入力をサポート
ダウンロード数 1,182
リリース時間 : 6/21/2022

モデル概要

このモデルはロシア語に最適化された自動音声認識(ASR)モデルで、ピッチシフト、速度調整、リバーブなどの拡張技術を用いて認識精度を向上。様々なロシア語音声シナリオに対応

モデル特徴

ロシア語最適化
ロシア語の音声特性に特化してファインチューニングされ、複数のロシア語テストセットで優れた性能を発揮
音声拡張
トレーニング時にピッチシフト、速度調整、リバーブなどの拡張技術を適用し、モデルの頑健性を向上
多シーン適応
近距離(crowd)と遠距離(farfield)の音声シナリオの両方で良好な性能を発揮

モデル能力

ロシア語音声からテキストへの変換
16kHz音声処理
遠距離音声認識

使用事例

音声文字起こし
ロシア語音声の文字起こし
ロシア語音声コンテンツをテキストに変換
Golos crowdテストセットでWER 10.144%
スマートアシスタント
ロシア語音声コマンド認識
ロシア語対応スマートホームデバイスの音声コマンド認識に使用
遠距離シナリオでWER 20.353%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase