nick_asr_LIDオープンソース自動音声認識モデル - 言語認識タスクを無料でサポート

Nick Asr LID

ntoldalagiによって開発

未知のデータセットでトレーニングされた自動音声認識モデルで、言語識別タスクをサポート

ダウンロード数 28

リリース時間 : 4/15/2022

モデル概要

このモデルは自動音声認識(ASR)モデルで、言語識別(LID)タスクに使用される可能性があります。モデルのトレーニング過程では不安定な損失値が示され、最終的に検証セットでの単語誤り率と文字誤り率はともに1.0でした。

マルチラウンドトレーニング

モデルは10ラウンドのトレーニングを経て、トレーニング損失の変化傾向を示しました

混合精度トレーニング

ネイティブAMP技術を使用した混合精度トレーニングを実施

音声認識

言語識別

音声処理

音声からテキストへ

音声内容をテキスト形式に変換

現在の単語誤り率は1.0

言語識別

音声中の言語タイプを識別

現在の文字誤り率は1.0

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
50.7955	1.0	458	54.9678	1.0	1.0
29.3958	2.0	916	37.1618	0.9928	0.9887
27.1413	3.0	1374	32.5933	0.9856	0.9854
24.0847	4.0	1832	34.2804	0.9784	0.9447
492.7757	5.0	2290	nan	0.9736	0.9428
0.0	6.0	2748	nan	1.0	1.0
0.0	7.0	3206	nan	1.0	1.0
0.0	8.0	3664	nan	1.0	1.0
0.0	9.0	4122	nan	1.0	1.0
0.0	10.0	4580	nan	1.0	1.0