voice - clone - large - finetune - final オープンソース音声クローンモデル、音声認識タスクに正確に活用！

Voice Clone Large Finetune Final

neuronbitによって開発

このモデルはopenai/whisper-large-v3を微調整した音声クローンモデルで、主に音声認識タスクに使用され、評価データセットでの単語誤り率は15.3572です。

ダウンロード数 37

リリース時間 : 11/27/2024

モデル概要

Whisper-large-v3をベースに微調整した音声認識モデルで、特定のシナリオにおける音声認識精度の向上に焦点を当てています。

低い単語誤り率

評価データセットで15.3572の単語誤り率を達成し、多くの汎用音声認識モデルよりも優れた性能を示します

精密な調整

Whisper-large-v3をベースに深く微調整し、特定の音声認識シナリオに適応させています

効率的なトレーニング

混合精度トレーニングや勾配蓄積などの技術を採用し、トレーニング効率を最適化しています

音声認識

音声からテキストへの変換

音声コンテンツ分析

音声文字起こし

会議議事録

会議の録音を自動的に文字記録に変換します

単語誤り率15.3572

音声メモ

音声メモを検索可能なテキストに変換します

音声分析

音声コンテンツ分析

音声コンテンツを分析し、キー情報を抽出します

このモデルは、不明なデータセットでopenai/whisper-large-v3をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

トレーニング中に以下のハイパーパラメータが使用されました。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.1607	0.8460	250	0.5163	25.9413
0.0598	1.6920	500	0.4849	24.8444
0.0257	2.5381	750	0.4450	30.4180
0.0141	3.3841	1000	0.4369	19.3003
0.0029	4.2301	1250	0.4267	16.0095
0.0015	5.0761	1500	0.4209	18.4109
0.0063	5.9222	1750	0.4259	19.3300
0.0016	6.7682	2000	0.4341	17.7587
0.0009	7.6142	2250	0.4121	17.0471
0.0013	8.4602	2500	0.4199	16.3653
0.0009	9.3063	2750	0.4233	16.5135
0.001	10.1523	3000	0.4237	16.0688
0.0019	10.9983	3250	0.4230	16.4542
0.0014	11.8443	3500	0.4292	15.8316
0.0007	12.6904	3750	0.4291	15.8316
0.0005	13.5364	4000	0.4321	15.3869
0.0009	14.3824	4250	0.4334	15.2980
0.001	15.2284	4500	0.4344	15.2980
0.0	16.0745	4750	0.4372	15.3572
0.0	16.9205	5000	0.4377	15.3572