🚀 wav2vec2-base-Drum_Kit_Sounds
本模型是 facebook/wav2vec2-base 的微調版本。它能夠對音頻樣本進行多分類,以確定其中被敲擊的鼓的類型,可識別的鼓類型包括底鼓(kick)、吊鑔(overheads)、軍鼓(snare)和通鼓(toms)。
評估集結果
- 損失值:1.0887
- 準確率:0.7812
- F1值:
- 加權F1值:0.7692
- 微平均F1值:0.7812
- 宏平均F1值:0.7845
- 召回率:
- 加權召回率:0.7812
- 微平均召回率:0.7812
- 宏平均召回率:0.8187
- 精確率:
- 加權精確率:0.8717
- 微平均精確率:0.7812
- 宏平均精確率:0.8534
📚 詳細文檔
模型描述
這是一個用於聲音多分類的模型,用於確定音頻樣本中被敲擊的鼓的類型。可選的鼓類型有:底鼓、吊鑔、軍鼓和通鼓。
有關其創建方式的更多信息,請查看以下鏈接:https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Audio-Projects/Classification/Audio-Drum_Kit_Sounds.ipynb
預期用途與限制
此模型旨在展示使用技術解決複雜問題的能力。
訓練和評估數據
數據集來源:https://www.kaggle.com/datasets/anubhavchhabra/drum-kit-sound-samples
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:3e-05
- 訓練批次大小:32
- 評估批次大小:32
- 隨機種子:42
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 學習率調度器熱身比例:0.1
- 訓練輪數:12
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
準確率 |
加權F1值 |
微平均F1值 |
宏平均F1值 |
加權召回率 |
微平均召回率 |
宏平均召回率 |
加權精確率 |
微平均精確率 |
宏平均精確率 |
1.3743 |
1.0 |
4 |
1.3632 |
0.5625 |
0.5801 |
0.5625 |
0.5678 |
0.5625 |
0.5625 |
0.5670 |
0.6786 |
0.5625 |
0.6429 |
1.3074 |
2.0 |
8 |
1.3149 |
0.3438 |
0.2567 |
0.3438 |
0.2696 |
0.3438 |
0.3438 |
0.375 |
0.3067 |
0.3438 |
0.3148 |
1.2393 |
3.0 |
12 |
1.3121 |
0.2188 |
0.0785 |
0.2188 |
0.0897 |
0.2188 |
0.2188 |
0.25 |
0.0479 |
0.2188 |
0.0547 |
1.2317 |
4.0 |
16 |
1.3112 |
0.2812 |
0.1800 |
0.2812 |
0.2057 |
0.2812 |
0.2812 |
0.3214 |
0.2698 |
0.2812 |
0.3083 |
1.2107 |
5.0 |
20 |
1.2604 |
0.4375 |
0.3030 |
0.4375 |
0.3462 |
0.4375 |
0.4375 |
0.5 |
0.2552 |
0.4375 |
0.2917 |
1.1663 |
6.0 |
24 |
1.2112 |
0.4688 |
0.3896 |
0.4688 |
0.4310 |
0.4688 |
0.4688 |
0.5268 |
0.5041 |
0.4688 |
0.5404 |
1.1247 |
7.0 |
28 |
1.1746 |
0.5938 |
0.5143 |
0.5938 |
0.5603 |
0.5938 |
0.5938 |
0.6562 |
0.5220 |
0.5938 |
0.5609 |
1.0856 |
8.0 |
32 |
1.1434 |
0.5938 |
0.5143 |
0.5938 |
0.5603 |
0.5938 |
0.5938 |
0.6562 |
0.5220 |
0.5938 |
0.5609 |
1.0601 |
9.0 |
36 |
1.1417 |
0.6562 |
0.6029 |
0.6562 |
0.6389 |
0.6562 |
0.6562 |
0.7125 |
0.8440 |
0.6562 |
0.8217 |
1.0375 |
10.0 |
40 |
1.1227 |
0.6875 |
0.6582 |
0.6875 |
0.6831 |
0.6875 |
0.6875 |
0.7330 |
0.8457 |
0.6875 |
0.8237 |
1.0168 |
11.0 |
44 |
1.1065 |
0.7812 |
0.7692 |
0.7812 |
0.7845 |
0.7812 |
0.7812 |
0.8187 |
0.8717 |
0.7812 |
0.8534 |
1.0093 |
12.0 |
48 |
1.0887 |
0.7812 |
0.7692 |
0.7812 |
0.7845 |
0.7812 |
0.7812 |
0.8187 |
0.8717 |
0.7812 |
0.8534 |
框架版本
- Transformers 4.25.1
- Pytorch 1.12.1
- Datasets 2.8.0
- Tokenizers 0.12.1
📄 許可證
本項目採用 Apache-2.0 許可證。