wav2vec2-base微調整音声認識モデル - オープンソースで利用可能、一部のデータに基づいて訓練

Wav2vec2 Base Toy Train Data Fast 10pct

scasuttによって開発

このモデルはfacebook/wav2vec2-baseを未知のデータセットでファインチューニングした音声認識モデルで、トレーニングには10%のデータサブセットが使用されました。

ダウンロード数 22

リリース時間 : 3/26/2022

モデル概要

自動音声認識(ASR)のためのファインチューニングモデルで、wav2vec2アーキテクチャに基づき、英語の音声からテキストへの変換タスクに適しています。

効率的なトレーニング

10%のデータサブセットを使用してトレーニングを行い、迅速なプロトタイプ開発に適しています

wav2vec2アーキテクチャベース

Facebook研究チームが開発した先進的な音声表現学習アーキテクチャを採用

線形学習率スケジューリング

トレーニングプロセスで線形学習率スケジューリングとウォームアップ戦略を採用

英語音声認識

音響特徴抽出

音声からテキストへの変換

音声文字起こし

会議議事録

英語の会議録音を自動的にテキスト記録に変換

単語誤り率(WER)約0.7175

音声メモ

個人の音声メモを検索可能なテキストに変換

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

このモデルに関する詳細情報は、今後追加予定です。

このモデルの想定される用途と制限に関する詳細情報は、今後追加予定です。

学習と評価に使用したデータに関する詳細情報は、今後追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.1309	1.05	250	3.4541	0.9982
3.0499	2.1	500	3.0231	0.9982
1.4839	3.15	750	1.4387	0.9257
1.1697	4.2	1000	1.3729	0.8792
0.9353	5.25	1250	1.2608	0.8445
0.7298	6.3	1500	1.1867	0.8052
0.6418	7.35	1750	1.2414	0.7997
0.5698	8.4	2000	1.2240	0.7766
0.5084	9.45	2250	1.1910	0.7687
0.4912	10.5	2500	1.2241	0.7617
0.4144	11.55	2750	1.2412	0.7477
0.4153	12.6	3000	1.2736	0.7511
0.405	13.65	3250	1.2827	0.7328
0.3852	14.7	3500	1.1981	0.7331
0.3829	15.75	3750	1.3035	0.7347
0.3538	16.81	4000	1.3003	0.7240
0.3385	17.86	4250	1.3354	0.7304
0.3108	18.91	4500	1.2983	0.7229
0.3037	19.96	4750	1.3087	0.7175