wynehills-mimi-ASRオープンソース自動音声認識モデル - 低エラー率で精度の高い音声内容認識

Wynehills Mimi ASR

mimiによって開発

これは自動音声認識(ASR)モデルで、未知のデータセットでトレーニングされ、単語誤り率(WER)は0.6309です。

ダウンロード数 26

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識システムで、音声をテキストに変換できます。モデルのトレーニングにはAdamオプティマイザーと線形学習率スケジューラーが使用されました。

最適化されたトレーニングプロセス

Adamオプティマイザーと線形学習率スケジューラーを使用してトレーニングされ、学習率は0.0001です

混合精度トレーニング

ネイティブAMP混合精度トレーニング技術を採用してトレーニング効率を向上させました

音声からテキストへの変換

自動音声認識

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換します

単語誤り率0.6309

音声メモの文字起こし

音声メモを編集可能なテキストに変換します

このモデルは未知のデータセットを使用してゼロから学習されました。評価セットでは以下の結果を達成しています。

このモデルは音声認識タスクに使用できます。未知のデータセットを用いてゼロから学習され、評価セットで特定の損失と単語誤り率を達成しています。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
ログなし	1.54	20	1.4018	0.6435
ログなし	3.08	40	1.4704	0.6593
ログなし	4.62	60	1.4898	0.6625
ログなし	6.15	80	1.4560	0.6404
ログなし	7.69	100	1.3822	0.6309
ログなし	9.23	120	1.3822	0.6309
ログなし	10.77	140	1.3822	0.6309
ログなし	12.31	160	1.3822	0.6309
ログなし	13.85	180	1.3822	0.6309
ログなし	15.38	200	1.3822	0.6309
ログなし	16.92	220	1.3822	0.6309
ログなし	18.46	240	1.3822	0.6309
ログなし	20.0	260	1.3822	0.6309
ログなし	21.54	280	1.3822	0.6309
ログなし	23.08	300	1.3822	0.6309
ログなし	24.62	320	1.3822	0.6309
ログなし	26.15	340	1.3822	0.6309
ログなし	27.69	360	1.3822	0.6309
ログなし	29.23	380	1.3822	0.6309
ログなし	30.77	400	1.3822	0.6309
ログなし	32.31	420	1.3822	0.6309
ログなし	33.85	440	1.3822	0.6309
ログなし	35.38	460	1.3822	0.6309
ログなし	36.92	480	1.3822	0.6309
0.0918	38.46	500	1.3822	0.6309
0.0918	40.0	520	1.3822	0.6309
0.0918	41.54	540	1.3822	0.6309
0.0918	43.08	560	1.3822	0.6309
0.0918	44.62	580	1.3822	0.6309
0.0918	46.15	600	1.3822	0.6309
0.0918	47.69	620	1.3822	0.6309
0.0918	49.23	640	1.3822	0.6309
0.0918	50.77	660	1.3822	0.6309
0.0918	52.31	680	1.3822	0.6309
0.0918	53.85	700	1.3822	0.6309
0.0918	55.38	720	1.3822	0.6309
0.0918	56.92	740	1.3822	0.6309
0.0918	58.46	760	1.3822	0.6309
0.0918	60.0	780	1.3822	0.6309
0.0918	61.54	800	1.3822	0.6309
0.0918	63.08	820	1.3822	0.6309
0.0918	64.62	840	1.3822	0.6309
0.0918	66.15	860	1.3822	0.6309
0.0918	67.69	880	1.3822	0.6309
0.0918	69.23	900	1.3822	0.6309