wav2vec2-base-timit-demo-google-colabオープンソース音声認識モデル - 無料で高精度な音声を文字に変換する

Wav2vec2 Base Timit Demo Google Colab

Developed by pannaga

このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、Google Colab環境でトレーニングされました。

Downloads 16

Release Time : 6/30/2022

Model Overview

英語音声認識用のファインチューニングモデルで、wav2vec2アーキテクチャに基づき、音声からテキストへの変換タスクに適しています。

効率的なファインチューニング

TIMITデータセットでファインチューニングすることで、元のwav2vec2-baseモデルの音声認識性能を大幅に向上させました

Google Colab互換

モデルのトレーニングプロセスはGoogle Colab環境に最適化されており、迅速な展開と実験が可能です

比較的軽量

wav2vec2-baseアーキテクチャに基づいており、より大きなモデルと比べてリソースが限られた環境に適しています

英語音声認識

音声からテキストへの変換

音響特徴抽出

音声処理

音声文字起こし

英語の音声コンテンツをテキストに変換します

単語誤り率(WER)は0.3437

音声コマンド認識

簡単な音声コマンドや指示を認識します

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声関連のタスクに使用できます。以下に評価セットでの結果を示します。

このモデルは、facebook/wav2vec2-base をベースに、Noneデータセットでファインチューニングされています。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

プロパティ	詳細
学習率 (learning_rate)	0.0001
学習バッチサイズ (train_batch_size)	8
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9, 0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	1000
エポック数 (num_epochs)	30
混合精度学習 (mixed_precision_training)	ネイティブAMP (Native AMP)

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.5237	1.0	500	1.7277	0.9752
0.8339	2.01	1000	0.5413	0.5316
0.4277	3.01	1500	0.4732	0.4754
0.2907	4.02	2000	0.4571	0.4476
0.2254	5.02	2500	0.4611	0.4105
0.1911	6.02	3000	0.4448	0.4072
0.1595	7.03	3500	0.4517	0.3843
0.1377	8.03	4000	0.4551	0.3881
0.1197	9.04	4500	0.4853	0.3772
0.1049	10.04	5000	0.4617	0.3707
0.097	11.04	5500	0.4633	0.3622
0.0872	12.05	6000	0.4635	0.3690
0.0797	13.05	6500	0.5196	0.3749
0.0731	14.06	7000	0.5029	0.3639
0.0667	15.06	7500	0.5053	0.3614
0.0618	16.06	8000	0.5627	0.3638
0.0562	17.07	8500	0.5484	0.3577
0.0567	18.07	9000	0.5163	0.3560
0.0452	19.08	9500	0.5012	0.3538
0.044	20.08	10000	0.4931	0.3534
0.0424	21.08	10500	0.5147	0.3519
0.0356	22.09	11000	0.5540	0.3521
0.0322	23.09	11500	0.5565	0.3509
0.0333	24.1	12000	0.5315	0.3428
0.0281	25.1	12500	0.5284	0.3425
0.0261	26.1	13000	0.5101	0.3446
0.0256	27.11	13500	0.5432	0.3415
0.0229	28.11	14000	0.5484	0.3446
0.0212	29.12	14500	0.5480	0.3437