wavlm-basic_s-f-o_8バッチ_10秒_0.0001学習率_凍結解除のオープンソース音声処理モデル、評価セットで高い正解率と高いF1スコア！

Wavlm Basic S F O 8batch 10sec 0.0001lr Unfrozen

reralleによって開発

microsoft/wavlm-largeを微調整した音声処理モデルで、評価セットで80%の精度と79.57%のF1スコアを達成

ダウンロード数 14

リリース時間 : 5/5/2023

モデル概要

このモデルはWavLMアーキテクチャに基づく音声処理モデルで、微調整後に特定の音声タスクに使用可能

高精度

評価セットで80%の精度と79.57%のF1スコアを達成

微調整最適化

WavLM-largeモデルに基づく精密な調整

効率的な訓練

バッチサイズ8と学習率0.0001を使用した最適化訓練

音声特徴抽出

音声分類

音声処理

音声感情認識

音声中の感情特徴を識別可能

精度80%

音声コマンド分類

異なる音声コマンドを分類可能

F1スコア79.57%