wav2vec2-librispeech-clean-100h-demo-distオープンソース音声認識モデル

Wav2vec2 Librispeech Clean 100h Demo Dist

Developed by patrickvonplaten

facebook/wav2vec2-large-lv60をベースにLIBRISPEECH_ASR-CLEANデータセットでファインチューニングした音声認識モデル

Downloads 15

Release Time : 3/2/2022

Model Overview

このモデルは音声認識モデルで、LIBRISPEECH_ASR-CLEANデータセットに特化して最適化されており、音声をテキストに変換できます。

効率的なファインチューニング

facebook/wav2vec2-large-lv60モデルをベースにLIBRISPEECH_ASR-CLEANデータセットで効率的にファインチューニングしました。

低単語誤り率

評価データセットで0.0417の単語誤り率(WER)を達成し、優れた性能を発揮します。

分散トレーニング

マルチGPU分散トレーニングをサポートし、トレーニング効率を向上させます。

音声認識

英語音声テキスト変換

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換

高い精度で、単語誤り率はわずか0.0417

音声アシスタント

音声アシスタントの音声認識モジュールとして使用

このモデルは、LIBRISPEECH_ASR - CLEANデータセット上でfacebook/wav2vec2-large-lv60をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています：

トレーニング中に以下のハイパーパラメータが使用されました：

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.399	0.11	100	3.6153	1.0
2.8892	0.22	200	2.8963	1.0
2.8284	0.34	300	2.8574	1.0
0.7347	0.45	400	0.6158	0.4850
0.1138	0.56	500	0.2038	0.1560
0.248	0.67	600	0.1274	0.1024
0.2586	0.78	700	0.1108	0.0876
0.0733	0.9	800	0.0936	0.0762
0.044	1.01	900	0.0834	0.0662
0.0393	1.12	1000	0.0792	0.0622
0.0941	1.23	1100	0.0769	0.0627
0.036	1.35	1200	0.0731	0.0603
0.0768	1.46	1300	0.0713	0.0559
0.0518	1.57	1400	0.0686	0.0537
0.0815	1.68	1500	0.0639	0.0515
0.0603	1.79	1600	0.0636	0.0500
0.056	1.91	1700	0.0609	0.0480
0.0265	2.02	1800	0.0621	0.0465
0.0496	2.13	1900	0.0607	0.0449
0.0436	2.24	2000	0.0591	0.0446
0.0421	2.35	2100	0.0590	0.0428
0.0641	2.47	2200	0.0603	0.0443
0.0466	2.58	2300	0.0580	0.0429
0.0132	2.69	2400	0.0574	0.0423
0.0073	2.8	2500	0.0586	0.0417
0.0021	2.91	2600	0.0574	0.0412