wav2vec2オープンソースのロシア語音声認識モデル - 無料で利用可能、低い単語誤り率で高精度に音声を認識

Wav2vec2 Large Xls R 300m Russian Colab Beam Search Test

jfealkoによって開発

このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたロシア語音声認識モデルで、評価セットで0.468の単語誤り率を達成しました。

ダウンロード数 18

リリース時間 : 4/7/2022

モデル概要

これはロシア語に最適化された音声認識モデルで、wav2vec2-xls-r-300mアーキテクチャを基にファインチューニングされており、ロシア語音声からテキストへの変換タスクに適しています。

ロシア語最適化

ロシア語音声データに特化してファインチューニングされており、ロシア語認識の精度が向上しています

低単語誤り率

評価セットで0.468の単語誤り率を達成し、良好な性能を示しています

大規模モデルベースのファインチューニング

facebook/wav2vec2-xls-r-300m大規模モデルを基にファインチューニングされており、強力な音声特徴抽出能力を継承しています

ロシア語音声認識

音声からテキストへの変換

自動音声認識

音声書き起こし

ロシア語会議議事録

ロシア語会議録音を自動的にテキストに書き起こします

約53.2%の精度（単語誤り率0.468）

ロシア語音声アシスタント

ロシア語音声アシスタントの音声認識モジュールとして使用

教育

ロシア語学習支援

ロシア語学習者の発音精度チェックを支援

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています：

トレーニング中に以下のハイパーパラメータが使用されました：

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
10.0158	4.16	100	5.4134	1.0
4.0394	8.33	200	3.4304	1.0
3.2721	12.49	300	3.2273	1.0
3.1277	16.66	400	2.8023	0.9984
1.3791	20.82	500	0.9888	0.8546
0.3659	24.99	600	0.7602	0.6304
0.1858	29.16	700	0.7965	0.6156
0.1403	33.33	800	0.7998	0.5839
0.1173	37.49	900	0.8353	0.5941
0.0917	41.66	1000	0.8272	0.5522
0.0743	45.82	1100	0.8342	0.5471
0.063	49.99	1200	0.7988	0.5352
0.0528	54.16	1300	0.7740	0.5201
0.0456	58.33	1400	0.7636	0.5165
0.0389	62.49	1500	0.7922	0.5161
0.0329	66.66	1600	0.8035	0.5158
0.0283	70.82	1700	0.7873	0.4832
0.0255	74.99	1800	0.7853	0.4870
0.0236	79.16	1900	0.8236	0.5045
0.0202	83.33	2000	0.7661	0.4796
0.0165	87.49	2100	0.7584	0.4680
0.0156	91.66	2200	0.7685	0.4772
0.0149	95.82	2300	0.7519	0.4696
0.0126	99.99	2400	0.7619	0.4680