wav2vec2-base_toy_train_data_masked_audioオープンソース音声認識モデル - オーディオマスキングタスクをサポート

Wav2vec2 Base Toy Train Data Masked Audio

scasuttによって開発

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、おもちゃデータセットでトレーニングされ、オーディオマスキングタスクをサポート

ダウンロード数 22

リリース時間 : 3/26/2022

モデル概要

このモデルはwav2vec2-baseアーキテクチャに基づくバリアントで、オーディオマスキングタスクに特化して最適化されており、音声認識やオーディオ特徴抽出のシナリオに適しています

オーディオマスキング能力

オーディオマスキングタスクに特化して最適化されており、マスクされたオーディオ入力を効果的に処理できます

軽量ファインチューニング

事前トレーニング済みのwav2vec2-baseモデルを基にファインチューニングされており、小規模データセットに適しています

漸進的な性能向上

トレーニング過程で単語誤り率が1.0から0.7340に段階的に低下し、良好な学習曲線を示しています

音声認識

オーディオ特徴抽出

マスクオーディオ予測

音声処理

ノイズ環境下での音声認識

オーディオの一部がマスクされたりノイズ干渉を受けた状況下での音声認識

単語誤り率0.7340

オーディオデータ拡張

オーディオマスキングタスクのトレーニングデータ生成に使用

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.1287	2.1	250	3.4581	1.0
3.0259	4.2	500	2.8099	0.9999
1.4881	6.3	750	1.2929	0.8950
0.9665	8.4	1000	1.1675	0.8346
0.7614	10.5	1250	1.1388	0.8003
0.5858	12.6	1500	1.1510	0.7672
0.5005	14.7	1750	1.1606	0.7532
0.4486	16.8	2000	1.1571	0.7427
0.4224	18.9	2250	1.1950	0.7340