timit-5percent-supervisedオープンソース音声認識モデル - 少量のデータで訓練して効率的な音声認識を実現

Timit 5percent Supervised

Kuray107によって開発

facebook/wav2vec2-large-lv60をベースに、TIMITデータセットで微調整した音声認識モデルで、5%のデータを使って教師付き学習を行っています。

ダウンロード数 31

リリース時間 : 3/2/2022

モデル概要

このモデルは音声認識モデルで、英語の音声認識タスクに特化して最適化されており、TIMITデータセットで低い単語誤り率を達成しています。

効率的な教師付き学習

TIMITデータセットのわずか5%を使って学習しても、良好な認識結果を得ることができます。

低い単語誤り率

評価セットで27.88%の単語誤り率を達成しました。

Wav2Vec2アーキテクチャに基づく

facebookのwav2vec2-large-lv60をベースモデルとして採用しており、強力な音声特徴抽出能力を持っています。

英語音声認識

音声をテキストに変換

連続音声認識

音声文字起こし

会議記録の文字起こし

英語の会議録音を自動的に文字記録に変換します。

TIMITテストセットで27.88%の単語誤り率を達成しました。

音声命令認識

英語の音声命令を認識します。

ハイパーパラメータ	値
学習率 (learning_rate)	0.0001
訓練バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	1000
エポック数 (num_epochs)	200
混合精度訓練 (mixed_precision_training)	Native AMP

訓練損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
5.3773	33.33	500	2.9693	1.0
1.4746	66.67	1000	0.5050	0.3359
0.1067	100.0	1500	0.5981	0.3054
0.0388	133.33	2000	0.6192	0.2712
0.0244	166.67	2500	0.6392	0.2776
0.018	200.0	3000	0.6615	0.2788