wav2vec2-base_toy_train_data_masked_audio_10msオープンソース音声認識モデル

Wav2vec2 Base Toy Train Data Masked Audio 10ms

scasuttによって開発

facebook/wav2vec2-baseを微調整した音声認識モデルで、10ms音声マスキングタスクでトレーニング

ダウンロード数 22

リリース時間 : 3/26/2022

モデル概要

このモデルはwav2vec2-baseの微調整版で、マスク処理された音声データの処理に特化しており、音声認識タスクに適しています。

10ms音声マスキング処理

10ms間隔のマスク音声データに特化して最適化されたトレーニング

wav2vec2-baseベースの微調整

成熟したwav2vec2-baseアーキテクチャを基にした最適化

音声認識

マスク音声処理

音声処理

不完全な音声認識

マスクされたり欠損した音声内容の認識

WER 0.7145

このモデルは、音声処理のためのモデルで、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたものです。評価セットでは、以下の結果を達成しています。

このモデルは、音声データの処理に使用できます。具体的な使用方法については、詳細なドキュメントやコードサンプルを参照してください。

このモデルは、Apache-2.0ライセンスの下で提供されています。

このモデルに関する詳細な情報は、今後の更新で提供される予定です。

このモデルの想定される用途と制限に関する詳細な情報は、今後の更新で提供される予定です。

学習と評価に使用されたデータに関する詳細な情報は、今後の更新で提供される予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.1337	1.05	250	3.4081	0.9982
3.0792	2.1	500	3.2446	0.9982
2.0577	3.15	750	1.5839	0.9492
1.3639	4.2	1000	1.3279	0.8798
1.0814	5.25	1250	1.1629	0.8294
0.8722	6.3	1500	1.1305	0.8140
0.7602	7.35	1750	1.1241	0.7972
0.6982	8.4	2000	1.1429	0.7780
0.6494	9.45	2250	1.1047	0.7620
0.5924	10.5	2500	1.1756	0.7649
0.5385	11.55	2750	1.2230	0.7736
0.5026	12.6	3000	1.1783	0.7472
0.4973	13.65	3250	1.1613	0.7287
0.4726	14.7	3500	1.1923	0.7345
0.4521	15.75	3750	1.2153	0.7171
0.4552	16.81	4000	1.2485	0.7226
0.422	17.86	4250	1.2664	0.7240
0.3708	18.91	4500	1.2352	0.7148
0.3516	19.96	4750	1.2477	0.7145