🚀 wav2vec2-base-Drum_Kit_Sounds
このモデルは、facebook/wav2vec2-base をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 1.0887
- 正解率: 0.7812
- F1
- 加重平均: 0.7692
- マイクロ平均: 0.7812
- マクロ平均: 0.7845
- 再現率
- 加重平均: 0.7812
- マイクロ平均: 0.7812
- マクロ平均: 0.8187
- 適合率
- 加重平均: 0.8717
- マイクロ平均: 0.7812
- マクロ平均: 0.8534
🚀 クイックスタート
このモデルは、音声サンプル内でどの種類のドラムが叩かれたかを判断するための多クラス分類モデルです。選択肢は、キック、オーバーヘッド、スネア、トムです。
作成方法の詳細については、以下のリンクを参照してください。https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Audio-Projects/Classification/Audio-Drum_Kit_Sounds.ipynb
✨ 主な機能
- 音声サンプル内のドラム音の種類を多クラス分類する機能
- 複数の評価指標(損失、正解率、F1、再現率、適合率)で高い性能を発揮
📚 ドキュメント
モデルの説明
このモデルは、音声サンプル内でどの種類のドラムが叩かれたかを判断するための多クラス分類モデルです。選択肢は、キック、オーバーヘッド、スネア、トムです。
想定される用途と制限
このモデルは、技術を用いて複雑な問題を解決する能力を示すために作成されました。
学習と評価データ
データセットのソース: https://www.kaggle.com/datasets/anubhavchhabra/drum-kit-sound-samples
学習手順
学習ハイパーパラメータ
学習時には以下のハイパーパラメータが使用されました。
- 学習率: 3e-05
- 学習バッチサイズ: 32
- 評価バッチサイズ: 32
- シード: 42
- オプティマイザ: ベータ=(0.9,0.999)、イプシロン=1e-08 の Adam
- 学習率スケジューラの種類: 線形
- 学習率スケジューラのウォームアップ割合: 0.1
- エポック数: 12
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
正解率 |
加重F1 |
マイクロF1 |
マクロF1 |
加重再現率 |
マイクロ再現率 |
マクロ再現率 |
加重適合率 |
マイクロ適合率 |
マクロ適合率 |
1.3743 |
1.0 |
4 |
1.3632 |
0.5625 |
0.5801 |
0.5625 |
0.5678 |
0.5625 |
0.5625 |
0.5670 |
0.6786 |
0.5625 |
0.6429 |
1.3074 |
2.0 |
8 |
1.3149 |
0.3438 |
0.2567 |
0.3438 |
0.2696 |
0.3438 |
0.3438 |
0.375 |
0.3067 |
0.3438 |
0.3148 |
1.2393 |
3.0 |
12 |
1.3121 |
0.2188 |
0.0785 |
0.2188 |
0.0897 |
0.2188 |
0.2188 |
0.25 |
0.0479 |
0.2188 |
0.0547 |
1.2317 |
4.0 |
16 |
1.3112 |
0.2812 |
0.1800 |
0.2812 |
0.2057 |
0.2812 |
0.2812 |
0.3214 |
0.2698 |
0.2812 |
0.3083 |
1.2107 |
5.0 |
20 |
1.2604 |
0.4375 |
0.3030 |
0.4375 |
0.3462 |
0.4375 |
0.4375 |
0.5 |
0.2552 |
0.4375 |
0.2917 |
1.1663 |
6.0 |
24 |
1.2112 |
0.4688 |
0.3896 |
0.4688 |
0.4310 |
0.4688 |
0.4688 |
0.5268 |
0.5041 |
0.4688 |
0.5404 |
1.1247 |
7.0 |
28 |
1.1746 |
0.5938 |
0.5143 |
0.5938 |
0.5603 |
0.5938 |
0.5938 |
0.6562 |
0.5220 |
0.5938 |
0.5609 |
1.0856 |
8.0 |
32 |
1.1434 |
0.5938 |
0.5143 |
0.5938 |
0.5603 |
0.5938 |
0.5938 |
0.6562 |
0.5220 |
0.5938 |
0.5609 |
1.0601 |
9.0 |
36 |
1.1417 |
0.6562 |
0.6029 |
0.6562 |
0.6389 |
0.6562 |
0.6562 |
0.7125 |
0.8440 |
0.6562 |
0.8217 |
1.0375 |
10.0 |
40 |
1.1227 |
0.6875 |
0.6582 |
0.6875 |
0.6831 |
0.6875 |
0.6875 |
0.7330 |
0.8457 |
0.6875 |
0.8237 |
1.0168 |
11.0 |
44 |
1.1065 |
0.7812 |
0.7692 |
0.7812 |
0.7845 |
0.7812 |
0.7812 |
0.8187 |
0.8717 |
0.7812 |
0.8534 |
1.0093 |
12.0 |
48 |
1.0887 |
0.7812 |
0.7692 |
0.7812 |
0.7845 |
0.7812 |
0.7812 |
0.8187 |
0.8717 |
0.7812 |
0.8534 |
フレームワークのバージョン
- Transformers 4.25.1
- Pytorch 1.12.1
- Datasets 2.8.0
- Tokenizers 0.12.1
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。