wav2vec2-base-timit-demo-google-colabオープンソースモデル - 無料デプロイで音声認識を支援

Wav2vec2 Base Timit Demo Google Colab

onesによって開発

このモデルはfacebook/wav2vec2-baseをベースにファインチューニングしたバージョンで、主に音声認識タスクに使用されます。

ダウンロード数 108

リリース時間 : 6/29/2022

モデル概要

このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングしたバージョンで、音声認識タスクに使用されます。

wav2vec2-baseベースのファインチューニング

このモデルはfacebook/wav2vec2-baseアーキテクチャをベースにファインチューニングされており、特定の音声認識タスクに適しています。

低いトレーニング損失

トレーニングプロセスにおいて、モデルは低い損失値を示し、良好なフィッティング能力を持っていることを示しています。

音声認識

音声からテキストへの変換

音声認識

音声からテキストへ

音声信号をテキスト内容に変換する

単語誤り率（Wer）：0.9988

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法は以下のセクションを参照してください。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率 (learning_rate)	0.0001
学習バッチサイズ (train_batch_size)	8
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9, 0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	1000
エポック数 (num_epochs)	30
混合精度学習 (mixed_precision_training)	ネイティブAMP (Native AMP)

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.5557	1.0	500	1.6786	1.0
0.8407	2.01	1000	0.5356	0.9988
0.4297	3.01	1500	0.4431	0.9988
0.2989	4.02	2000	0.4191	0.9988
0.2338	5.02	2500	0.4251	0.9988
0.1993	6.02	3000	0.4618	0.9988
0.1585	7.03	3500	0.4577	0.9988
0.1386	8.03	4000	0.4099	0.9982
0.1234	9.04	4500	0.4945	0.9988
0.1162	10.04	5000	0.4597	0.9988
0.1008	11.04	5500	0.4563	0.9988
0.0894	12.05	6000	0.5157	0.9988
0.083	13.05	6500	0.5027	0.9988
0.0735	14.06	7000	0.4905	0.9994
0.0686	15.06	7500	0.4552	0.9988
0.0632	16.06	8000	0.5522	0.9988
0.061	17.07	8500	0.4874	0.9988
0.0626	18.07	9000	0.5243	0.9988
0.0475	19.08	9500	0.4798	0.9988
0.0447	20.08	10000	0.5250	0.9988
0.0432	21.08	10500	0.5195	0.9988
0.0358	22.09	11000	0.5008	0.9988
0.0319	23.09	11500	0.5376	0.9988
0.0334	24.1	12000	0.5149	0.9988
0.0269	25.1	12500	0.4911	0.9988
0.0275	26.1	13000	0.4907	0.9988
0.027	27.11	13500	0.4992	0.9988
0.0239	28.11	14000	0.5021	0.9988
0.0233	29.12	14500	0.5112	0.9988