wav2vec2-xlsr-1b-ruオープンソースのロシア語音声認識モデル

ホーム

Wav2vec2 Xlsr 1b Ru

RASMUSによって開発

facebook/wav2vec2-xls-r-1bをCommon Voiceデータセットでファインチューニングしたロシア語自動音声認識モデル

音声認識

Transformers

その他#ロシア語音声認識 #低単語誤り率 #大規模パラメータモデル

ダウンロード数 41

リリース時間 : 3/2/2022

モデル概要

このモデルはロシア語に最適化された自動音声認識(ASR)モデルで、10億パラメータのXLS-Rアーキテクチャに基づき、Common Voice 8ロシア語データセットでファインチューニングされており、ロシア語音声をテキストに変換できます。

モデル特徴

大規模事前学習アーキテクチャ

10億パラメータのXLS-Rアーキテクチャに基づき、強力な音声特徴抽出能力を備えています

ロシア語最適化

ロシア語の音声特性に特化してファインチューニングされ、ロシア語の発音と文法特徴に適応しています

マルチデータセット検証

Common Voiceやロバスト音声イベントなど複数のデータセットで性能を検証しています

モデル能力

ロシア語音声認識

音声からテキストへの変換

自動音声転写

使用事例

音声転写

ロシア語音声から文字へ

ロシア語音声コンテンツを編集可能なテキスト形式に変換

Common VoiceテストセットでWER10.83%

音声アシスタント

ロシア語音声コマンド認識

ロシア語音声アシスタントやスマートホームデバイスの音声コマンド認識に使用

🚀 wav2vec2-xlsr-1b-ru

このモデルは、facebook/wav2vec2-xls-r-1b を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1352
単語誤り率 (Wer): 0.0971

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用できます。以下のセクションで、モデルの詳細、トレーニングと評価データ、トレーニング手順について説明します。

📚 詳細ドキュメント

モデルの概要

モデルに関する詳細情報は今後追加予定です。

想定される用途と制限

このモデルの想定される用途と制限に関する詳細情報は今後追加予定です。

トレーニングと評価データ

トレーニングと評価に使用されたデータに関する詳細情報は今後追加予定です。

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 5e-05
トレーニングバッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 8
シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 10
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.5462	0.35	500	0.4027	0.3575
0.498	0.69	1000	0.2588	0.2513
0.4279	1.04	1500	0.2265	0.2204
0.4099	1.38	2000	0.2189	0.1979
0.4688	1.73	2500	0.2100	0.1920
0.2241	2.07	3000	0.1980	0.1767
0.2056	2.42	3500	0.2020	0.1683
0.3423	2.76	4000	0.1862	0.1606
0.2478	3.11	4500	0.1787	0.1563
0.3079	3.45	5000	0.1759	0.1555
0.2477	3.8	5500	0.1713	0.1423
0.1718	4.14	6000	0.1695	0.1391
0.1675	4.49	6500	0.1677	0.1372
0.1631	4.83	7000	0.1652	0.1333
0.1429	5.18	7500	0.1605	0.1308
0.1505	5.52	8000	0.1612	0.1245
0.1385	5.87	8500	0.1487	0.1225
0.1285	6.22	9000	0.1526	0.1201
0.1153	6.56	9500	0.1464	0.1172
0.1159	6.91	10000	0.1505	0.1143
0.1061	7.25	10500	0.1444	0.1106
0.1016	7.6	11000	0.1427	0.1075
0.1125	7.94	11500	0.1386	0.1045
0.0937	8.29	12000	0.1403	0.1022
0.1059	8.63	12500	0.1406	0.1022
0.0857	8.98	13000	0.1372	0.0992
0.0901	9.32	13500	0.1380	0.0977
0.0913	9.67	14000	0.1352	0.0971

フレームワークのバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.3
Tokenizers 0.11.0

📄 モデル情報

属性	詳情
データセット	mozilla-foundation/common_voice_8_0
評価指標	単語誤り率 (wer)、文字誤り率 (cer)
タグ	audio、automatic-speech-recognition、generated_from_trainer、hf-asr-leaderboard、mozilla-foundation/common_voice_8_0、robust-speech-event、speech
モデル名	XLS-R 1B Wav2Vec2 Russian by Rasmus Toivanen
タスク	自動音声認識 (Automatic Speech Recognition)
評価結果