internal.wav2vec2-base-superb-ks-int8-structured79オープンソースモデル

Internal.wav2vec2 Base Superb Ks Int8 Structured79

yujiepanによって開発

このモデルはwav2vec2-base-ft-keyword-spottingをsuperbデータセットでファインチューニングしたバージョンで、オーディオ分類タスク用に量子化と構造化プルーニング最適化が施されています。

ダウンロード数 16

リリース時間 : 3/14/2023

モデル概要

これはファインチューニングと最適化を経たオーディオ分類モデルで、wav2vec2アーキテクチャに基づき、キーワード認識タスクで優れた性能を発揮します。

高精度

評価データセットで98.15%の精度を達成

最適化処理

量子化と構造化プルーニングを実施（Transformerブロック線形層の疎密度80）

効率的なトレーニング

混合精度トレーニングと勾配蓄積などの技術でトレーニングプロセスを最適化

オーディオ分類

キーワード認識

音声インタラクション

音声コマンド認識

デバイス制御コマンド中のキーワードを認識

高精度認識

オーディオ分析

オーディオコンテンツ分類

オーディオクリップを分類

トレーニング損失	エポック	ステップ	検証損失	精度
0.4606	1.0	399	0.1543	0.9723
14.8746	2.0	798	14.9490	0.9681
24.7043	3.0	1197	24.6662	0.9706
30.626	4.0	1596	30.4279	0.9732
33.4796	5.0	1995	33.3182	0.9750
34.4405	6.0	2394	34.2327	0.9744
34.1743	7.0	2793	34.0161	0.9741
33.47	8.0	3192	33.2669	0.9748
0.2278	9.0	3591	0.1125	0.9757
0.2259	10.0	3990	0.0848	0.9778
0.1629	11.0	4389	0.0734	0.9788
0.1658	12.0	4788	0.0736	0.9803
0.2264	13.0	5187	0.0658	0.9803
0.1564	14.0	5586	0.0677	0.9819
0.1716	15.0	5985	0.0641	0.9815