wav2vec2-base-cvオープンソース音声認識モデル - 無料でデプロイし、音声内容を正確に認識

Wav2vec2 Base Cv

jiobiala24によって開発

facebook/wav2vec2-baseをcommon_voiceデータセットで微調整した音声認識モデル

ダウンロード数 24

リリース時間 : 3/8/2022

モデル概要

これは音声認識タスク用のモデルで、wav2vec2アーキテクチャに基づき、common_voiceデータセットで微調整されています。

効率的な微調整

事前学習済みのwav2vec2-baseモデルを基に微調整を行い、common_voiceデータセットでの認識精度を向上させました

良好な性能

評価セットで0.3804の単語誤り率(WER)を達成し、良好な性能を示しています

最適化されたトレーニング

線形学習率スケジューリングとウォームアップ戦略を使用し、トレーニングプロセスを安定させました

音声からテキストへ

自動音声認識

音声文字起こし

音声から文字へ

音声内容をテキスト形式に変換します

単語誤り率0.3804

音声アシスタント

音声コマンド認識

ユーザーの音声コマンドを認識し理解します

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.563	3.18	500	2.9826	1.0
2.0012	6.37	1000	0.9528	0.5354
0.4841	9.55	1500	0.8838	0.4325
0.2748	12.74	2000	0.9437	0.4130
0.1881	15.92	2500	0.9603	0.4005
0.1426	19.11	3000	1.0605	0.3955
0.1134	22.29	3500	1.0733	0.3897
0.0963	25.48	4000	1.1387	0.3835
0.0829	28.66	4500	1.1562	0.3804