unispeech-large-1500h-cv-timitオープンソース自動音声認識モデル - 高精度の音声から文字への変換を実現

Unispeech Large 1500h Cv Timit

Developed by patrickvonplaten

このモデルはmicrosoft/unispeech-large-1500h-cvをTIMIT_ASRデータセットでファインチューニングした自動音声認識モデルで、評価セットで21.96%の単語誤り率(WER)を達成しました。

Downloads 536

Release Time : 3/2/2022

Model Overview

英語音声認識タスクに最適化された自動音声認識モデルで、特にTIMITデータセットのような音声シナリオに適しています。

大規模事前学習モデルに基づくファインチューニング

1500時間の音声データで事前学習されたUniSpeech-Largeモデルをファインチューニングしており、強力な音声特徴抽出能力を備えています

TIMITデータセット最適化

TIMIT ASRデータセットに特化して最適化されており、このデータセットで優れた性能を発揮します

低単語誤り率

評価セットで21.96%の単語誤り率(WER)を達成しました

英語音声認識

連続音声テキスト変換

音素レベル認識

音声認識研究

TIMITデータセット音声認識ベンチマークテスト

音声認識アルゴリズムのベンチマークテストと比較に使用できます

WER 21.96%

教育アプリケーション

英語発音評価

英語学習者の発音精度評価に使用できます

このモデルは、TIMIT_ASR - NAデータセット上でmicrosoft/unispeech-large-1500h-cvをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています：

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

学習中に以下のハイパーパラメータが使用されました：

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
4.64	0.69	100	3.9717	0.9981
2.6793	1.38	200	2.6264	1.0
1.2221	2.07	300	0.9999	0.7167
0.9009	2.76	400	0.6509	0.5570
0.4352	3.45	500	0.4682	0.4332
0.227	4.14	600	0.3661	0.3565
0.2169	4.83	700	0.3244	0.3203
0.2687	5.52	800	0.3137	0.2981
0.127	6.21	900	0.3220	0.2828
0.0922	6.9	1000	0.3075	0.2708
0.0965	7.59	1100	0.2779	0.2576
0.1298	8.28	1200	0.3111	0.2480
0.0855	8.97	1300	0.3021	0.2421
0.0629	9.66	1400	0.3122	0.2511
0.0471	10.34	1500	0.2965	0.2368
0.0871	11.03	1600	0.3247	0.2387
0.0503	11.72	1700	0.3359	0.2363
0.0402	12.41	1800	0.2976	0.2332
0.0336	13.1	1900	0.3139	0.2321
0.0634	13.79	2000	0.3188	0.2309
0.0429	14.48	2100	0.3145	0.2335
0.028	15.17	2200	0.3244	0.2242
0.0255	15.86	2300	0.2914	0.2196
0.0406	16.55	2400	0.3249	0.2202
0.0512	17.24	2500	0.3037	0.2198
0.0269	17.93	2600	0.3218	0.2242
0.0287	18.62	2700	0.3106	0.2185
0.0319	19.31	2800	0.3124	0.2217
0.0494	20.0	2900	0.3099	0.2196