bsc_ai_thesis_torgo_model-1オープンソース音声処理モデル - ファインチューニングによる最適化で評価セットでの性能が良好

Bsc Ai Thesis Torgo Model 1

Juardoによって開発

facebook/wav2vec2-baseをファインチューニングした音声処理モデルで、評価データセットで優れた性能を発揮

ダウンロード数 19

リリース時間 : 6/30/2023

モデル概要

このモデルはwav2vec2-baseアーキテクチャをファインチューニングしたバージョンで、主に音声関連タスクに使用され、評価データセットで高い精度とF1値を達成しました。

高精度

評価データセットで86.25%の精度を達成

バランスの取れた性能

適合率83.49%と再現率90.55%でバランスが良く、F1値は86.87%を達成

wav2vec2ファインチューニング

成熟したwav2vec2-baseアーキテクチャを基に最適化

音声処理

音声特徴抽出

音声認識

音声分類

音声コンテンツの分類タスクに使用可能

精度86.25%

トレーニング損失	エポック	ステップ	検証損失	正解率	適合率	再現率	F1値
0.6855	0.96	12	0.6603	0.6225	0.5772	0.9303	0.7124
0.5875	2.0	25	0.5249	0.785	0.7533	0.8507	0.7991
0.4858	2.96	37	0.5584	0.7575	0.6940	0.9254	0.7932
0.3951	4.0	50	0.5366	0.785	0.7220	0.9303	0.8130
0.3962	4.96	62	0.4707	0.805	0.7450	0.9303	0.8274
0.3069	6.0	75	0.4032	0.8325	0.8190	0.8557	0.8370
0.2973	6.96	87	0.3753	0.855	0.8593	0.8507	0.855
0.2585	8.0	100	0.3719	0.8625	0.8259	0.9204	0.8706
0.2365	8.96	112	0.3503	0.855	0.8357	0.8856	0.8599
0.2244	9.6	120	0.3532	0.8625	0.8349	0.9055	0.8687