wav2vec2-large-xls-r-300m-ruオープンソースのロシア語音声認識モデル

Wav2vec2 Large Xls R 300m Ru

NLPVladimirによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voice_17_0データセットでファインチューニングしたロシア語自動音声認識(ASR)モデルで、単語誤り率(WER)は0.195です。

ダウンロード数 56

リリース時間 : 1/30/2025

モデル概要

これはロシア語自動音声認識のためのモデルで、wav2vec2アーキテクチャに基づき、Common Voiceデータセットでファインチューニングされています。

低単語誤り率

Common Voiceロシア語テストセットで0.195の単語誤り率(WER)を達成

大規模事前学習モデルベース

facebook/wav2vec2-xls-r-300m事前学習モデルをファインチューニング

効率的な学習

混合精度学習と勾配蓄積などの技術で学習効率を最適化

ロシア語音声認識

音声テキスト変換

音声内容分析

音声文字起こし

ロシア語音声文字起こし

ロシア語音声をテキストに変換

単語誤り率0.195

音声アシスタント

ロシア語音声コマンド認識

ロシア語音声アシスタントの基礎認識能力として使用

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice_17_0 データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声認識タスクに使用できます。以下の手順で始めることができます。

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 18
評価バッチサイズ (eval_batch_size): 24
シード (seed): 42
勾配累積ステップ (gradient_accumulation_steps): 5
総学習バッチサイズ (total_train_batch_size): 90
オプティマイザ (optimizer): OptimizerNames.ADAMW_TORCH を使用し、ベータ=(0.9,0.999)、イプシロン=1e-08、追加のオプティマイザ引数なし
学習率スケジューラタイプ (lr_scheduler_type): 線形
学習率スケジューラウォームアップステップ (lr_scheduler_warmup_steps): 1000
エポック数 (num_epochs): 7
混合精度学習 (mixed_precision_training): Native AMP