sew-d-small-100k-ft-timitオープンソース自動音声認識モデル - 無料でデプロイし、音声内容を正確に認識

Sew D Small 100k Ft Timit

patrickvonplatenによって開発

asapp/sew-d-small-100kを基にTIMIT_ASRデータセットで微調整された自動音声認識モデル

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

このモデルは小型の自動音声認識(ASR)モデルで、TIMIT_ASRデータセット向けに最適化されています。評価セットで0.7987の単語誤り率(WER)を達成しました。

効率的な音声認識

TIMITデータセット向けに最適化された効率的な音声認識能力

小規模モデル

比較的小さなモデルサイズで、リソースが限られた環境に適している

微調整最適化

ベースモデルを特定データセット向けに精密に調整

英語音声認識

音声からテキストへの変換

音声内容分析

音声技術研究

音声認識ベンチマークテスト

異なるASRモデルの性能評価と比較に使用

TIMITデータセットでWER 0.7987を達成

教育応用

発音評価

言語学習における発音精度の評価に使用可能

このモデルは、TIMIT_ASR - NAデータセットで asapp/sew-d-small-100k をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.2068	0.69	100	4.0802	1.0
2.9805	1.38	200	2.9792	1.0
2.9781	2.07	300	2.9408	1.0
2.9655	2.76	400	2.9143	1.0
2.8953	3.45	500	2.8775	1.0
2.7719	4.14	600	2.7815	0.9999
2.6531	4.83	700	2.6375	1.0065
2.6425	5.52	800	2.5602	1.0210
2.3963	6.21	900	2.4665	1.0591
2.1447	6.9	1000	2.2792	0.9848
2.2719	7.59	1100	2.2237	0.9465
2.3629	8.28	1200	2.1058	0.8907
2.0913	8.97	1300	2.0113	0.9070
1.8334	9.66	1400	1.9466	0.8177
1.6608	10.34	1500	1.9217	0.8698
2.2194	11.03	1600	1.9091	0.8727
1.9002	11.72	1700	1.8746	0.8332
1.6268	12.41	1800	1.8782	0.7951
1.6455	13.1	1900	1.8230	0.8225
2.0308	13.79	2000	1.8067	0.8560
1.855	14.48	2100	1.8129	0.8177
1.5901	15.17	2200	1.7891	0.8367
1.4848	15.86	2300	1.7821	0.8201
1.8754	16.55	2400	1.7700	0.8137
1.7975	17.24	2500	1.7795	0.8171
1.5194	17.93	2600	1.7605	0.7977
1.4374	18.62	2700	1.7529	0.7978
1.7498	19.31	2800	1.7522	0.8023
1.7452	20.0	2900	1.7482	0.7987