W

Wav2vec2 Large Ru Golos

Developed by bond005
facebook/wav2vec2-large-xlsr-53をファインチューニングしたロシア語音声認識モデル。Sberdevices Golosデータセットでトレーニングされ、16kHz音声入力をサポート
Downloads 1,182
Release Time : 6/21/2022

Model Overview

このモデルはロシア語に最適化された自動音声認識(ASR)モデルで、ピッチシフト、速度調整、リバーブなどの拡張技術を用いて認識精度を向上。様々なロシア語音声シナリオに対応

Model Features

ロシア語最適化
ロシア語の音声特性に特化してファインチューニングされ、複数のロシア語テストセットで優れた性能を発揮
音声拡張
トレーニング時にピッチシフト、速度調整、リバーブなどの拡張技術を適用し、モデルの頑健性を向上
多シーン適応
近距離(crowd)と遠距離(farfield)の音声シナリオの両方で良好な性能を発揮

Model Capabilities

ロシア語音声からテキストへの変換
16kHz音声処理
遠距離音声認識

Use Cases

音声文字起こし
ロシア語音声の文字起こし
ロシア語音声コンテンツをテキストに変換
Golos crowdテストセットでWER 10.144%
スマートアシスタント
ロシア語音声コマンド認識
ロシア語対応スマートホームデバイスの音声コマンド認識に使用
遠距離シナリオでWER 20.353%
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase