neunit-ks-kangyuan0601オープンソース音声分類モデル - 無料でデプロイ可能、評価セットの正解率は99.87%に達する

Neunit Ks Kangyuan0601

SHENMU007によって開発

このモデルはfacebook/wav2vec2-baseをsuperbデータセットでファインチューニングした音声分類モデルで、評価セットで99.87%の精度を達成しました。

ダウンロード数 16

リリース時間 : 6/1/2023

モデル概要

wav2vec2アーキテクチャに基づく音声分類タスク用のファインチューニングモデルで、音声関連の分類タスクに適しています。

高精度

評価セットで99.87%の高精度を達成

wav2vec2アーキテクチャ採用

facebookのwav2vec2-baseをベースモデルとして使用

効率的なトレーニング

混合精度トレーニングや勾配蓄積などの技術でトレーニングプロセスを最適化

音声分類

音声特徴抽出

音声処理

音声コマンド分類

音声コマンドの識別と分類に使用可能

高精度識別

音声感情分析

音声中の感情特徴を分析するために使用可能

パラメータ	値
learning_rate	3e-05
train_batch_size	32
eval_batch_size	32
seed	0
gradient_accumulation_steps	4
total_train_batch_size	128
optimizer	Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type	linear
lr_scheduler_warmup_ratio	0.1
num_epochs	5.0
mixed_precision_training	Native AMP