librispeech-100h-supervisedオープンソース音声認識モデル

Librispeech 100h Supervised

Kuray107によって開発

このモデルは、facebook/wav2vec2-large-lv60をベースに、LibriSpeechの100時間データセットで微調整された音声認識モデルで、低い単語誤り率を達成しています。

ダウンロード数 14

リリース時間 : 3/2/2022

モデル概要

これは英語の音声認識に使用される教師あり学習モデルで、wav2vec2アーキテクチャに基づき、LibriSpeechの100時間データセットで微調整されています。

低い単語誤り率

評価セットで0.0345の単語誤り率（WER）を達成し、優れた性能を示しました。

wav2vec2アーキテクチャに基づく

facebook/wav2vec2-large-lv60をベースモデルとして採用し、強力な音声特徴抽出能力を持っています。

教師あり学習による微調整

LibriSpeechの100時間データセットで教師あり学習による微調整を行い、音声認識性能を最適化しました。

英語音声認識

音声をテキストに変換

音声文字起こし

会議記録

会議の録音を自動的に文字起こしします。

精度は96.55％に達します。

字幕生成

動画コンテンツに自動的に英語字幕を生成します。

このモデルは、facebook/wav2vec2-large-lv60 をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声認識タスクに適用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

このモデルは、facebook/wav2vec2-large-lv60 をベースに、特定のデータセットでファインチューニングされています。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

ハイパーパラメータ	値
学習率 (learning_rate)	0.0001
学習バッチサイズ (train_batch_size)	24
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	1000
エポック数 (num_epochs)	15
混合精度学習 (mixed_precision_training)	Native AMP

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	文字誤り率 (Wer)
4.8277	0.42	500	2.9071	1.0
2.0261	0.84	1000	0.3060	0.2496
0.2181	1.26	1500	0.1172	0.0873
0.1255	1.68	2000	0.0894	0.0637
0.0971	2.1	2500	0.0821	0.0560
0.078	2.52	3000	0.0751	0.0500
0.0706	2.94	3500	0.0721	0.0456
0.0609	3.36	4000	0.0755	0.0464
0.0572	3.78	4500	0.0705	0.0431
0.0528	4.2	5000	0.0715	0.0423
0.0481	4.62	5500	0.0691	0.0403
0.0471	5.04	6000	0.0743	0.0401
0.0412	5.46	6500	0.0757	0.0399
0.0416	5.88	7000	0.0688	0.0378
0.0391	6.3	7500	0.0704	0.0383
0.0367	6.72	8000	0.0742	0.0387
0.0349	7.14	8500	0.0732	0.0388
0.033	7.56	9000	0.0719	0.0374
0.0327	7.98	9500	0.0750	0.0369
0.0292	8.4	10000	0.0734	0.0368
0.0303	8.82	10500	0.0733	0.0365
0.0283	9.24	11000	0.0766	0.0357
0.0269	9.66	11500	0.0761	0.0350
0.0268	10.08	12000	0.0802	0.0359
0.0245	10.42	12500	0.0758	0.0354
0.023	10.84	13000	0.0775	0.0349
0.0186	11.26	13500	0.0817	0.0355
0.0176	11.68	14000	0.0853	0.0354
0.0163	12.1	14500	0.0880	0.0347
0.0156	12.52	15000	0.0864	0.0357
0.0141	12.94	15500	0.0897	0.0355
0.0134	13.36	16000	0.0915	0.0349
0.013	13.78	16500	0.0928	0.0350
0.0097	13.42	17000	0.0955	0.0345