xls - r - 300m - npsc - seq2seqオープンソース音声認識モデル

Xls R 300m Npsc Seq2seq

Rolv-Arildによって開発

このモデルは自動音声認識(ASR)モデルで、特定のデータセットを指定せずに訓練され、最終的な単語誤り率(WER)は0.3144です。

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

これは自動音声認識モデルで、音声をテキストに変換することができます。

低単語誤り率

評価データセットで0.3144の単語誤り率(WER)を達成し、良好な性能を示しています。

最適化された訓練

Adamオプティマイザーと線形学習率スケジューラーを使用して訓練され、安定した訓練プロセスを実現しています。

音声からテキストへの変換

自動音声認識

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換

単語誤り率0.3144

字幕生成

動画コンテンツに自動的に字幕を生成

このモデルは、Noneデータセットを使ってゼロから学習されました。評価セットでは以下の結果を達成しています。

このモデルは特定のタスクに対して学習されたもので、評価セットでの性能が上記の通りです。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
2.888	0.51	400	3.7320	0.9440
3.1636	1.02	800	2.9188	1.1916
2.773	1.53	1200	2.3347	1.0134
0.7198	2.04	1600	0.6678	0.4826
0.5255	2.55	2000	0.4605	0.4135
0.3961	3.06	2400	0.4266	0.3955
0.3424	3.57	2800	0.3786	0.3741
0.3858	4.08	3200	0.3161	0.3552
0.3218	4.59	3600	0.3029	0.3510
0.199	5.1	4000	0.2988	0.3418
0.2054	5.61	4400	0.2873	0.3434
0.1704	6.12	4800	0.3129	0.3432
0.1805	6.63	5200	0.2963	0.3413
0.2091	7.14	5600	0.2755	0.3329
0.1971	7.65	6000	0.2706	0.3309
0.1237	8.16	6400	0.2823	0.3270
0.123	8.67	6800	0.2754	0.3246
0.103	9.18	7200	0.2917	0.3272
0.1143	9.69	7600	0.2885	0.3305
0.156	10.2	8000	0.2810	0.3288
0.167	10.71	8400	0.2689	0.3232
0.0815	11.22	8800	0.2899	0.3236
0.0844	11.73	9200	0.2798	0.3225
0.0775	12.24	9600	0.2894	0.3224
0.0677	12.75	10000	0.2838	0.3204
0.1383	13.27	10400	0.2959	0.3211
0.1233	13.77	10800	0.2922	0.3213
0.0688	14.29	11200	0.2903	0.3209
0.0655	14.8	11600	0.2868	0.3182
0.0449	15.31	12000	0.2959	0.3172
0.0421	15.82	12400	0.2966	0.3180
0.0858	16.33	12800	0.2941	0.3164
0.0859	16.84	13200	0.2980	0.3165
0.0561	17.35	13600	0.2965	0.3165
0.0506	17.86	14000	0.2935	0.3148
0.0312	18.37	14400	0.2964	0.3154
0.0403	18.88	14800	0.2967	0.3160
0.0924	19.39	15200	0.2955	0.3147
0.0585	19.9	15600	0.2965	0.3144