wav2vec2-large-xlsr-53微調整音声認識モデルのオープンソース化 - 10msオーディオマスクデータ認識の最適化

Wav2vec2 Large Xlsr 53 Toy Train Data Masked Audio 10ms

scasuttによって開発

facebook/wav2vec2-large-xlsr-53を基に微調整した音声認識モデルで、10ms音声マスキング訓練データで最適化されています

ダウンロード数 22

リリース時間 : 3/28/2022

モデル概要

このモデルは音声認識タスク向けに最適化されたバージョンで、微調整により特定条件下での認識精度が向上しています

10ms音声マスキング訓練

10ms音声マスキングという特殊な訓練方法を使用しており、短時間音声特徴の認識能力が向上している可能性があります

微調整最適化

事前訓練モデルを基に微調整を行い、特定データセットでより良い性能を発揮しています

音声認識

音声特徴抽出

音声から文字へ

音声文字起こし

音声内容を文字に変換します

単語誤り率0.4929

このモデルは、facebook/wav2vec2-large-xlsr-53 をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.4049	1.05	250	3.3497	1.0
3.0851	2.1	500	3.4440	1.0
2.3512	3.15	750	1.5938	0.9317
1.1762	4.2	1000	0.8481	0.7333
0.903	5.25	1250	0.7180	0.6484
0.6754	6.3	1500	0.6603	0.6044
0.5961	7.35	1750	0.6410	0.5778
0.5325	8.4	2000	0.6245	0.5545
0.4685	9.45	2250	0.5925	0.5359
0.4526	10.5	2500	0.5991	0.5345
0.3975	11.55	2750	0.5916	0.5228
0.3672	12.6	3000	0.5882	0.5037
0.3774	13.65	3250	0.5693	0.5028
0.3489	14.7	3500	0.5645	0.5018
0.3593	15.75	3750	0.5977	0.5043
0.3167	16.81	4000	0.6049	0.5018
0.3225	17.86	4250	0.6172	0.4921
0.2807	18.91	4500	0.5937	0.4923
0.2889	19.96	4750	0.5945	0.4929