wavlm-basic_s-r-5c_8バッチ_5秒_0.0001学習率_凍結解除のオープンソース音声処理モデル

Wavlm Basic S R 5c 8batch 5sec 0.0001lr Unfrozen

reralleによって開発

microsoft/wavlm-largeをファインチューニングした音声処理モデル、評価セットで75%の精度達成

ダウンロード数 16

リリース時間 : 4/30/2023

モデル概要

このモデルは音声処理タスク向けに最適化されたWavLMアーキテクチャの変種で、短い音声フラグメントの分析に適しています

効率的なファインチューニング

0.0001の学習率で精密調整を行い、事前学習モデルのコア能力を保持

短時間音声処理

5秒の音声フラグメント向けに最適化され、リアルタイム処理シナリオに適しています

安定したトレーニング

勾配累積(ステップ数4)と線形学習率スケジューリングを採用し、トレーニングの安定性を確保

音声特徴抽出

短時間音声分類

音声パターン認識

音声分析

感情認識

短い音声フラグメントから感情傾向を分析

精度75%

音声コマンド分類

短い音声コマンドのカテゴリを識別

F1スコア0.75