🚀 wav2vec2-base-語音情感識別
本模型旨在預測音頻樣本中說話者的情感,基於預訓練模型微調而來,能有效解決語音情感識別問題,為相關領域的研究和應用提供了有力支持。
🚀 快速開始
本模型是 facebook/wav2vec2-base 的微調版本。
它在評估集上取得了以下結果:
- 損失:0.7264
- 準確率:0.7539
- F1值:
- 加權:0.7514
- 微平均:0.7539
- 宏平均:0.7529
- 召回率:
- 加權:0.7539
- 微平均:0.7539
- 宏平均:0.7577
- 精確率:
- 加權:0.7565
- 微平均:0.7539
- 宏平均:0.7558
✨ 主要特性
本模型能夠預測音頻樣本中說話者的情感。
若想了解該模型的創建方式,請查看以下鏈接:https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/tree/main/Audio-Projects/Emotion%20Detection/Speech%20Emotion%20Detection
📚 詳細文檔
預期用途與限制
本模型旨在展示使用技術解決複雜問題的能力。
訓練和評估數據
數據集來源:https://www.kaggle.com/datasets/dmitrybabko/speech-emotion-recognition-en
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:3e-05
- 訓練批次大小:32
- 評估批次大小:32
- 隨機種子:42
- 梯度累積步數:4
- 總訓練批次大小:128
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 學習率調度器熱身比例:0.1
- 訓練輪數:10
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
準確率 |
加權F1值 |
微平均F1值 |
宏平均F1值 |
加權召回率 |
微平均召回率 |
宏平均召回率 |
加權精確率 |
微平均精確率 |
宏平均精確率 |
1.5581 |
0.98 |
43 |
1.4046 |
0.4653 |
0.4080 |
0.4653 |
0.4174 |
0.4653 |
0.4653 |
0.4793 |
0.5008 |
0.4653 |
0.4974 |
1.5581 |
1.98 |
86 |
1.1566 |
0.5997 |
0.5836 |
0.5997 |
0.5871 |
0.5997 |
0.5997 |
0.6093 |
0.6248 |
0.5997 |
0.6209 |
1.5581 |
2.98 |
129 |
0.9733 |
0.6883 |
0.6845 |
0.6883 |
0.6860 |
0.6883 |
0.6883 |
0.6923 |
0.7012 |
0.6883 |
0.7009 |
1.5581 |
3.98 |
172 |
0.8313 |
0.7399 |
0.7392 |
0.7399 |
0.7409 |
0.7399 |
0.7399 |
0.7417 |
0.7415 |
0.7399 |
0.7432 |
1.5581 |
4.98 |
215 |
0.8708 |
0.7028 |
0.6963 |
0.7028 |
0.6970 |
0.7028 |
0.7028 |
0.7081 |
0.7148 |
0.7028 |
0.7114 |
1.5581 |
5.98 |
258 |
0.7969 |
0.7297 |
0.7267 |
0.7297 |
0.7277 |
0.7297 |
0.7297 |
0.7333 |
0.7393 |
0.7297 |
0.7382 |
1.5581 |
6.98 |
301 |
0.7349 |
0.7603 |
0.7613 |
0.7603 |
0.7631 |
0.7603 |
0.7603 |
0.7635 |
0.7699 |
0.7603 |
0.7702 |
1.5581 |
7.98 |
344 |
0.7714 |
0.7469 |
0.7444 |
0.7469 |
0.7456 |
0.7469 |
0.7469 |
0.7485 |
0.7554 |
0.7469 |
0.7563 |
1.5581 |
8.98 |
387 |
0.7183 |
0.7630 |
0.7615 |
0.7630 |
0.7631 |
0.7630 |
0.7630 |
0.7652 |
0.7626 |
0.7630 |
0.7637 |
1.5581 |
9.98 |
430 |
0.7264 |
0.7539 |
0.7514 |
0.7539 |
0.7529 |
0.7539 |
0.7539 |
0.7577 |
0.7565 |
0.7539 |
0.7558 |
框架版本
- Transformers 4.26.1
- Pytorch 2.0.0+cu118
- Datasets 2.11.0
- Tokenizers 0.13.3
📄 許可證
本項目採用 Apache-2.0 許可證。