wavlm-basic_n-f-nオープンソース音声処理モデル - 無料で利用可能、評価セットの正解率が73.33%に達する

Wavlm Basic N F N 8batch 5sec 0.0001lr Unfrozen

reralleによって開発

microsoft/wavlm-largeをファインチューニングした音声処理モデル、評価セットで73.33%の精度を達成

ダウンロード数 14

リリース時間 : 4/27/2023

モデル概要

このモデルはWavLMアーキテクチャに基づく音声処理モデルで、ファインチューニング後は特定の音声認識や分類タスクに使用可能

効率的なファインチューニング

0.0001の学習率でファインチューニングを行い、限られたデータでも良好な結果を達成

安定した訓練

訓練過程で精度が着実に向上し、初期16.67%から73.33%まで改善

バッチ最適化

バッチサイズ8と勾配蓄積ステップ4を採用し、総訓練バッチサイズは32

音声特徴抽出

音声分類

音声認識

音声処理

音声感情認識

音声に含まれる感情カテゴリを識別

精度73.33%、F1スコア73.08%

音声コマンド分類

音声コマンドを分類処理

このモデルは、microsoft/wavlm-large をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声関連のタスクに使用できます。具体的な使用方法については、関連するライブラリのドキュメントを参照してください。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	正解率	F1スコア
2.3031	0.98	24	2.3002	0.1667	0.1148
2.2766	2.0	49	2.2805	0.15	0.0930
2.2298	2.98	73	2.0679	0.2333	0.1421
1.9839	4.0	98	1.8757	0.25	0.1380
1.7495	4.98	122	1.5981	0.4	0.3370
1.5318	6.0	147	1.4640	0.45	0.3698
1.2765	6.98	171	1.3181	0.5167	0.4437
1.261	8.0	196	1.0905	0.5833	0.5429
1.078	8.98	220	1.0944	0.55	0.5244
0.9116	10.0	245	0.8228	0.6167	0.5603
0.8973	10.98	269	0.8632	0.5833	0.5266
0.8033	12.0	294	0.9061	0.65	0.6398
0.7183	12.98	318	0.8047	0.7	0.6877
0.7526	14.0	343	0.6695	0.7333	0.7176
0.6381	14.98	367	0.7510	0.7833	0.7788
0.5266	16.0	392	0.6154	0.8	0.7901
0.4485	16.98	416	0.8614	0.75	0.7359
0.5123	18.0	441	1.0848	0.65	0.6306
0.4094	18.98	465	0.6748	0.7667	0.7680
0.3114	20.0	490	0.7406	0.75	0.7389
0.2668	20.98	514	0.8419	0.75	0.7424