wav2vec2-base_toy_train_data_random_noise_0.1オープンソース音声認識モデル

Wav2vec2 Base Toy Train Data Random Noise 0.1

scasuttによって開発

facebook/wav2vec2-baseモデルをランダムノイズデータセットでファインチューニングした音声認識モデル

ダウンロード数 22

リリース時間 : 3/26/2022

モデル概要

このモデルはwav2vec2-baseのファインチューニング版で、主に音声認識タスク向けに、ランダムノイズを追加したデータセットでトレーニングされています。

ノイズ耐性

ランダムノイズを追加したデータセットでトレーニングされており、ある程度のノイズ耐性を持っています

wav2vec2アーキテクチャベース

Facebookのwav2vec2-baseアーキテクチャを採用しており、優れた音声特徴抽出能力を持っています

音声認識

ノイズ環境下での音声処理

音声認識

ノイズ環境下での音声転写

一定の背景ノイズがある環境で音声を認識・転写する

単語誤り率(WER)は0.7213

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、特定の音声関連のタスクに対して、事前学習されたwav2vec2-baseモデルをファインチューニングしたものです。以下に、評価セットでの結果を示します。

詳細情報は今後追加予定です。

詳細情報は今後追加予定です。

詳細情報は今後追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率 (learning_rate)	0.0001
学習バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
勾配累積ステップ数 (gradient_accumulation_steps)	2
総学習バッチサイズ (total_train_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	1000
エポック数 (num_epochs)	20

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
3.1296	2.1	250	3.5088	1.0
3.0728	4.2	500	3.1694	1.0
1.8686	6.3	750	1.3414	0.9321
1.1241	8.4	1000	1.0196	0.8321
0.8704	10.5	1250	0.9387	0.7962
0.6734	12.6	1500	0.9309	0.7640
0.5832	14.7	1750	0.9329	0.7346
0.5207	16.8	2000	0.9060	0.7247
0.4857	18.9	2250	0.9263	0.7213