wav2vec2-base-checkpoint-5オープンソース音声認識モデル

Wav2vec2 Base Checkpoint 5

jiobiala24によって開発

このモデルはwav2vec2-base-checkpoint-4をcommon_voiceデータセットで微調整した音声認識モデルで、自動音声認識(ASR)タスクをサポートします。

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

wav2vec2アーキテクチャに基づく音声認識モデルで、common_voiceデータセットで微調整され、音声をテキストに変換します。

効率的な微調整

事前学習済みwav2vec2モデルを基に微調整し、common_voiceデータセットでの認識精度を向上させました

低単語誤り率

評価データセットで0.3354の単語誤り率(WER)を達成し、良好な性能を示しています

最適化されたトレーニング

線形学習率スケジューリングとAdamオプティマイザを使用して30エポック訓練し、モデルの収束を確保しました

音声認識

音声からテキストへの変換

音声文字起こし

音声から文字へのサービス

音声内容を自動的に文字記録に変換

単語誤り率0.3354

支援ツール

聴覚障害者支援

音声をリアルタイムで文字に変換し、聴覚障害者が音声内容を理解するのを支援

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.3947	1.96	1000	0.5749	0.3597
0.2856	3.93	2000	0.6212	0.3479
0.221	5.89	3000	0.6280	0.3502
0.1755	7.86	4000	0.6517	0.3526
0.1452	9.82	5000	0.7115	0.3481
0.1256	11.79	6000	0.7687	0.3509
0.1117	13.75	7000	0.7785	0.3490
0.0983	15.72	8000	0.8115	0.3442
0.0877	17.68	9000	0.8290	0.3429
0.0799	19.65	10000	0.8517	0.3412
0.0733	21.61	11000	0.9370	0.3448
0.066	23.58	12000	0.9157	0.3410
0.0623	25.54	13000	0.9673	0.3377
0.0583	27.5	14000	0.9804	0.3348
0.0544	29.47	15000	0.9849	0.3354