wav2vec2-base_toy_train_data_augment_0.1オープンソース音声認識モデル

Wav2vec2 Base Toy Train Data Augment 0.1

scasuttによって開発

facebook/wav2vec2-baseを微調整した音声認識モデルで、玩具データセットで訓練され、0.1の比率でデータ拡張が適用されています

ダウンロード数 22

リリース時間 : 3/25/2022

モデル概要

このモデルはwav2vec2-baseの微調整バージョンで、主に音声認識タスクに使用されますが、現在のパフォーマンスは不十分です（WERは0.9954と高い）

データ拡張訓練

訓練プロセスで0.1の比率のデータ拡張技術が適用されました

wav2vec2アーキテクチャベース

facebookのwav2vec2-baseをベースモデルとして採用しています

音声認識

音響特徴抽出

音声処理

音声からテキストへ

音声内容をテキストに変換します

現在の単語誤り率は高い（WER=0.9954）

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報はありません。

詳細情報はありません。

詳細情報はありません。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.1342	1.05	250	3.3901	0.9954
3.0878	2.1	500	3.4886	0.9954
3.0755	3.15	750	3.4616	0.9954
3.0891	4.2	1000	3.5316	0.9954
3.0724	5.25	1250	3.2608	0.9954
3.0443	6.3	1500	3.3881	0.9954
3.0421	7.35	1750	3.4507	0.9954
3.0448	8.4	2000	3.4525	0.9954
3.0455	9.45	2250	3.3342	0.9954
3.0425	10.5	2500	3.3385	0.9954
3.0457	11.55	2750	3.4411	0.9954
3.0375	12.6	3000	3.4459	0.9954
3.0459	13.65	3250	3.3883	0.9954
3.0455	14.7	3500	3.3417	0.9954
3.0524	15.75	3750	3.3908	0.9954
3.0443	16.81	4000	3.3932	0.9954
3.0446	17.86	4250	3.4052	0.9954
3.0412	18.91	4500	3.3776	0.9954
3.0358	19.96	4750	3.3786	0.9954