SSL-Harveen-Chadda-Fine-Tuningオープンソース音声認識モデル - ヒンディー語認識に対応、低単語誤り率

SSL Harveen Chadda Fine Tuning

rajat99によって開発

このモデルはHarveenchadha/vakyansh-wav2vec2-hindi-him-4200を未知のデータセットでファインチューニングした音声認識モデルで、ヒンディー語をサポートし、評価セットで10.08%の単語誤り率を達成しました。

ダウンロード数 30

リリース時間 : 4/12/2022

モデル概要

これはヒンディー語に最適化された音声認識モデルで、事前学習モデルのファインチューニングにより得られ、音声からテキストへの変換タスクに適しています。

低単語誤り率

評価セットで10.08%の単語誤り率(WER)を達成し、優れた性能を示しています。

wav2vec2アーキテクチャベース

先進的なwav2vec2アーキテクチャを採用して音声認識タスクを実行します。

ヒンディー語最適化

特にヒンディー語音声認識のためにファインチューニングされています。

ヒンディー語音声認識

音声からテキストへの変換

音声文字起こし

ヒンディー語会議議事録

ヒンディー語の会議録音を自動的に文字記録に変換

約90%の精度

音声アシスタント

ヒンディー語音声アシスタントアプリケーションの音声認識モジュールとして使用

このモデルは、未知のデータセットでHarveenchadha/vakyansh-wav2vec2-hindi-him-4200をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、特定のデータセットでファインチューニングされたもので、評価セットで一定の性能を示しています。以下に、モデルの訓練に関する詳細を示します。

訓練中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率 (learning_rate)	0.0003
訓練バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
勾配累積ステップ数 (gradient_accumulation_steps)	2
総訓練バッチサイズ (total_train_batch_size)	32
オプティマイザー (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラーの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラーのウォームアップステップ数 (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	30

訓練の結果は以下の表の通りです。

訓練損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
4.3793	4.17	400	0.5347	0.2584
0.2137	8.33	800	0.8339	0.2664
0.1282	12.5	1200	0.1785	0.1414
0.0698	16.66	1600	0.0135	0.1066
0.0354	20.83	2000	0.0351	0.1179
0.0212	24.99	2400	0.0104	0.1035
0.0066	29.17	2800	0.0032	0.1008