W

Wav2vec2 Large Xlsr 53 Russian

jonatasgrosmanによって開発
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語音声認識モデル、16kHzサンプリングレートの音声入力をサポート
ダウンロード数 3.9M
リリース時間 : 3/2/2022

モデル概要

このモデルはロシア語に最適化された自動音声認識(ASR)モデルで、XLSR-53アーキテクチャを基にファインチューニングされ、Common Voiceロシア語データセットで優れた性能を発揮

モデル特徴

高性能ロシア語認識
Common Voiceロシア語テストセットで13.3%の単語誤り率と2.88%の文字誤り率を達成
言語モデル拡張サポート
言語モデルと組み合わせると、単語誤り率は9.57%、文字誤り率は2.24%まで低下
複数データセットでのトレーニング
Common Voice 6.1とCSS10データセットを使用してトレーニングと検証を実施
16kHzサンプリングレートサポート
16kHzサンプリングレートの音声入力に最適化

モデル能力

ロシア語音声からテキストへの変換
長い音声処理(チャンク処理サポート)
リアルタイム音声認識

使用事例

音声文字起こし
ロシア語音声の書き起こし
ロシア語音声コンテンツをテキストに変換
Common Voiceテストセットで13.3%の単語誤り率を達成
音声アシスタント
ロシア語音声コマンド認識
ロシア語音声コマンドを認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase