🚀 wav2vec2-base-Toronto_emotional_speech_set
このモデルは、音声サンプルにおける感情分類を行うことができます。audiofolderデータセットを用いて、facebook/wav2vec2-base をファインチューニングしたモデルです。
🚀 クイックスタート
このモデルは、音声サンプル内の感情を分類することができます。評価セットでは、以下の結果を達成しています。
- 損失: 0.4925
- 正解率: 0.8804
- 加重F1値: 0.8837
- マイクロF1値: 0.8804
- マクロF1値: 0.8822
- 加重再現率: 0.8804
- マイクロ再現率: 0.8804
- マクロ再現率: 0.8757
- 加重適合率: 0.9044
- マイクロ適合率: 0.8804
- マクロ適合率: 0.9059
✨ 主な機能
このモデルは、音声サンプル内の感情を分類することができます。作成方法の詳細については、以下のリンクを参照してください。https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Audio-Projects/Emotion%20Detection/Toronto%20Emotional%20Speech%20Set%20(TESS)/Toronto%20Emotional%20Speech%20Set%20(TESS).ipynb
📚 ドキュメント
想定される用途と制限
このモデルは、技術を用いて複雑な問題を解決する能力を示すことを目的としています。
学習と評価データ
データセットのソース: https://www.kaggle.com/datasets/ejlok1/toronto-emotional-speech-set-tess
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 3e-05
- 学習バッチサイズ: 32
- 評価バッチサイズ: 32
- シード: 42
- 勾配累積ステップ: 4
- 総学習バッチサイズ: 128
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類: 線形
- 学習率スケジューラのウォームアップ比率: 0.1
- エポック数: 15
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
正解率 |
加重F1値 |
マイクロF1値 |
マクロF1値 |
加重再現率 |
マイクロ再現率 |
マクロ再現率 |
加重適合率 |
マイクロ適合率 |
マクロ適合率 |
1.9517 |
0.97 |
17 |
1.9432 |
0.2411 |
0.1338 |
0.2411 |
0.1201 |
0.2411 |
0.2411 |
0.2168 |
0.1161 |
0.2411 |
0.1049 |
1.9517 |
2.0 |
35 |
1.9036 |
0.3375 |
0.3037 |
0.3375 |
0.3082 |
0.3375 |
0.3375 |
0.3533 |
0.5364 |
0.3375 |
0.5379 |
1.9517 |
2.97 |
52 |
1.6629 |
0.4518 |
0.4020 |
0.4518 |
0.3936 |
0.4518 |
0.4518 |
0.4503 |
0.6751 |
0.4518 |
0.6555 |
1.9517 |
4.0 |
70 |
1.2026 |
0.7357 |
0.7121 |
0.7357 |
0.6989 |
0.7357 |
0.7357 |
0.7240 |
0.7903 |
0.7357 |
0.7848 |
1.9517 |
4.97 |
87 |
0.8458 |
0.8839 |
0.8796 |
0.8839 |
0.8767 |
0.8839 |
0.8839 |
0.8845 |
0.8874 |
0.8839 |
0.8807 |
1.9517 |
6.0 |
105 |
0.6493 |
0.8946 |
0.8939 |
0.8946 |
0.8914 |
0.8946 |
0.8946 |
0.8937 |
0.9049 |
0.8946 |
0.9014 |
1.9517 |
6.97 |
122 |
0.5149 |
0.9089 |
0.9046 |
0.9089 |
0.8989 |
0.9089 |
0.9089 |
0.8957 |
0.9275 |
0.9089 |
0.9327 |
1.9517 |
8.0 |
140 |
0.3814 |
0.9536 |
0.9531 |
0.9536 |
0.9501 |
0.9536 |
0.9536 |
0.9474 |
0.9577 |
0.9536 |
0.9583 |
1.9517 |
8.97 |
157 |
0.5627 |
0.85 |
0.8459 |
0.85 |
0.8402 |
0.85 |
0.85 |
0.8378 |
0.9100 |
0.85 |
0.9160 |
1.9517 |
10.0 |
175 |
0.4702 |
0.8911 |
0.8861 |
0.8911 |
0.8854 |
0.8911 |
0.8911 |
0.8938 |
0.9021 |
0.8911 |
0.8967 |
1.9517 |
10.97 |
192 |
0.3362 |
0.9393 |
0.9376 |
0.9393 |
0.9361 |
0.9393 |
0.9393 |
0.9399 |
0.9402 |
0.9393 |
0.9365 |
1.9517 |
12.0 |
210 |
0.3808 |
0.9179 |
0.9181 |
0.9179 |
0.9176 |
0.9179 |
0.9179 |
0.9180 |
0.9251 |
0.9179 |
0.9235 |
1.9517 |
12.97 |
227 |
0.4546 |
0.9036 |
0.9045 |
0.9036 |
0.9024 |
0.9036 |
0.9036 |
0.8988 |
0.9151 |
0.9036 |
0.9157 |
1.9517 |
14.0 |
245 |
0.5065 |
0.8786 |
0.8826 |
0.8786 |
0.8813 |
0.8786 |
0.8786 |
0.8742 |
0.9040 |
0.8786 |
0.9055 |
1.9517 |
14.57 |
255 |
0.4925 |
0.8804 |
0.8837 |
0.8804 |
0.8822 |
0.8804 |
0.8804 |
0.8757 |
0.9044 |
0.8804 |
0.9059 |
フレームワークのバージョン
- Transformers 4.27.4
- Pytorch 2.0.0
- Datasets 2.11.0
- Tokenizers 0.13.3
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。