wav2vec2-base_toy_train_data_augmentedオープンソース音声認識モデル - 訓練データを最適化して音声を高精度に認識する

Wav2vec2 Base Toy Train Data Augmented

scasuttによって開発

facebook/wav2vec2-baseモデルをベースにファインチューニングした音声認識モデルで、拡張されたトレーニングデータで最適化されています。

ダウンロード数 22

リリース時間 : 3/26/2022

モデル概要

このモデルはwav2vec2アーキテクチャに基づく音声認識モデルで、特定のデータセットでファインチューニングにより認識精度を向上させています。

データ拡張トレーニング

モデルはトレーニング過程でデータ拡張技術を使用し、汎化能力を向上させています。

低単語誤り率

ファインチューニング後、モデルは検証セットで低い単語誤り率（Wer）を達成しました。

音声認識

音声からテキストへの変換

音声文字起こし

会議議事録の文字起こし

会議の録音を自動的にテキストに変換し、記録と検索を容易にします。

音声アシスタント

音声アシスタントの音声認識モジュールに使用され、認識精度を向上させます。

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.12	1.05	250	3.3998	0.9982
3.0727	2.1	500	3.1261	0.9982
1.9729	3.15	750	1.4868	0.9464
1.3213	4.2	1000	1.2598	0.8833
1.0508	5.25	1250	1.0014	0.8102
0.8483	6.3	1500	0.9475	0.7944
0.7192	7.35	1750	0.9493	0.7686
0.6447	8.4	2000	0.9872	0.7573
0.6064	9.45	2250	0.9587	0.7447
0.5384	10.5	2500	0.9332	0.7320
0.4985	11.55	2750	0.9926	0.7315
0.4643	12.6	3000	1.0008	0.7292
0.4565	13.65	3250	0.9522	0.7171
0.449	14.7	3500	0.9685	0.7140
0.4307	15.75	3750	1.0080	0.7077
0.4239	16.81	4000	0.9950	0.7023
0.389	17.86	4250	1.0260	0.7007
0.3471	18.91	4500	1.0012	0.6966
0.3276	19.96	4750	1.0238	0.6969