W

Wavlm Basic S R 5c 8batch 5sec 0.0001lr Unfrozen

reralleによって開発
microsoft/wavlm-largeをファインチューニングした音声処理モデル、評価セットで75%の精度達成
ダウンロード数 16
リリース時間 : 4/30/2023

モデル概要

このモデルは音声処理タスク向けに最適化されたWavLMアーキテクチャの変種で、短い音声フラグメントの分析に適しています

モデル特徴

効率的なファインチューニング
0.0001の学習率で精密調整を行い、事前学習モデルのコア能力を保持
短時間音声処理
5秒の音声フラグメント向けに最適化され、リアルタイム処理シナリオに適しています
安定したトレーニング
勾配累積(ステップ数4)と線形学習率スケジューリングを採用し、トレーニングの安定性を確保

モデル能力

音声特徴抽出
短時間音声分類
音声パターン認識

使用事例

音声分析
感情認識
短い音声フラグメントから感情傾向を分析
精度75%
音声コマンド分類
短い音声コマンドのカテゴリを識別
F1スコア0.75
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase