wav2vec2 - 7オープンソース音声認識モデル - 無料でデプロイ可能、評価セットの単語誤り率はわずか0.52

Wav2vec2 7

chrisvinsenによって開発

このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで0.52の単語誤り率を達成しました。

ダウンロード数 20

リリース時間 : 5/23/2022

モデル概要

wav2vec2-7はwav2vec2アーキテクチャに基づく音声認識モデルで、主に音声をテキストに変換するために使用されます。

低単語誤り率

評価セットで0.52の単語誤り率を達成し、良好な性能を示しています。

wav2vec2アーキテクチャベース

facebook/wav2vec2-baseをファインチューニングしており、優れた音声特徴抽出能力を継承しています。

線形学習率スケジューリング

トレーニングプロセスで線形学習率スケジューリングとウォームアップステップを使用し、トレーニング効果を最適化しました。

音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

会議の録音を文字記録に変換

単語誤り率0.52

音声アシスタント

音声アシスタントの音声認識モジュールとして使用

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.1311	1.56	200	2.9839	1.0
2.5727	3.12	400	1.4962	1.0209
1.0187	4.69	600	0.7562	0.7859
0.637	6.25	800	0.6529	0.6960
0.4847	7.81	1000	0.6609	0.6745
0.3952	9.38	1200	0.5808	0.6220
0.3343	10.94	1400	0.5622	0.6004
0.2897	12.5	1600	0.8842	0.5980
0.2549	14.06	1800	0.6047	0.5765
0.2334	15.62	2000	0.6436	0.5699
0.2144	17.19	2200	0.5831	0.5593
0.1982	18.75	2400	0.6327	0.5620
0.1817	20.31	2600	0.8790	0.5456
0.1713	21.88	2800	0.9603	0.5362
0.163	23.44	3000	0.5940	0.5384
0.1539	25.0	3200	0.6058	0.5311
0.1392	26.56	3400	0.6131	0.5221
0.1386	28.12	3600	0.6066	0.5258
0.1351	29.69	3800	0.6017	0.5200