wav2vec2-large-xls-r-300m-ruオープンソースのロシア語音声認識モデル - ロシア語のオーディオを高精度に処理！

Wav2vec2 Large Xls R 300m Ru

mobedkovaによって開発

これはWav2Vec2 XLS-Rアーキテクチャに基づくロシア語自動音声認識モデルで、パラメータ規模は300m、公共音声およびロバスト音声イベントデータセットで評価されています。

ダウンロード数 37

リリース時間 : 3/2/2022

モデル概要

このモデルは主にロシア語音声認識タスクに使用され、ロシア語音声をテキストに変換できます。

高性能ロシア語音声認識

公共音声-7.0ロシア語データセットで27.81%の単語誤り率と8.83%の文字誤り率を達成しました。

ロバスト性の高い性能

ロバスト音声イベントデータセットで良好な性能を示し、開発データとテストデータの単語誤り率はそれぞれ44.64%と42.51%でした。

Wav2Vec2 XLS-Rアーキテクチャ採用

先進的なWav2Vec2 XLS-Rアーキテクチャを採用し、強力な音声特徴抽出能力を備えています。

ロシア語音声認識

音声からテキストへの変換

音声文字起こし

ロシア語会議議事録

ロシア語会議録音を自動的に文字起こし

単語誤り率27.81%（公共音声データセット）

ロシア語音声アシスタント

ロシア語音声アシスタントの音声認識モジュールとして使用

音声分析

ロシア語音声コンテンツ分析

ロシア語音声コンテンツを分析し、キー情報を抽出

属性	詳細
モデルタイプ	Automatic Speech Recognition
訓練データ	Common Voice

タスク	データセット	評価指標	値
自動音声認識	Common Voice - 7.0	Test WER	27.81
自動音声認識	Common Voice - 7.0	Test CER	8.83
自動音声認識	Robust Speech Event - Dev Data	Test WER	44.64
自動音声認識	Robust Speech Event - Test Data	Test WER	42.51