nick_asr_v2オープンソース自動音声認識モデル - 高精度な認識、低エラー率で無料でデプロイ可能

Nick Asr V2

ntoldalagiによって開発

nick_asr_v2 は自動音声認識(ASR)モデルで、未知のデータセットで微調整され、評価セットで1.4562の損失値、0.6422の単語誤り率、0.2409の文字誤り率を達成しました。

ダウンロード数 18

リリース時間 : 4/5/2022

モデル概要

このモデルは自動音声認識モデルで、主に音声をテキストに変換するために使用されます。

低文字誤り率

評価セットで0.2409の文字誤り率を達成し、良好な性能を示しています。

最適化されたトレーニングパラメータ

Adamオプティマイザーと線形学習率スケジューラーを使用してトレーニングされました。

音声からテキストへの変換

自動音声認識

音声文字起こし

会議議事録

会議の録音をテキスト記録に変換

字幕生成

動画コンテンツの字幕を生成

訓練損失	エポック	ステップ	文字誤り率 (Cer)	検証損失	単語誤り率 (Wer)
0.2616	0.44	300	0.2905	1.2200	0.7496
0.441	0.87	600	0.2866	1.1936	0.7385
0.4366	1.31	900	0.2795	1.1584	0.7274
0.3982	1.75	1200	0.2808	1.2033	0.7274
0.3891	2.18	1500	0.2753	1.2044	0.7166
0.3508	2.91	2000	1.2382	0.7220	0.2743
0.2783	4.37	3000	1.3327	0.7177	0.2705
0.2495	5.82	4000	1.2286	0.6749	0.2638
0.1982	7.28	5000	1.3073	0.6721	0.2585
0.1717	8.73	6000	1.2941	0.6627	0.2500
0.1508	10.19	7000	1.3625	0.6584	0.2490
0.1329	11.64	8000	1.3863	0.6584	0.2474
0.1303	13.1	9000	1.3714	0.6534	0.2449
0.1159	14.56	10000	1.4043	0.6473	0.2442
0.1015	16.01	11000	1.4245	0.6498	0.2419
0.098	17.47	12000	1.4410	0.6440	0.2425
0.0869	18.92	13000	1.4562	0.6422	0.2409