🚀 多語言GoEmotions聊天機器人任務報告
本項目基於GoEmotions數據集,構建了一個多語言情感分類模型和聊天機器人,可有效處理多種語言的情感分類任務。
🚀 快速開始
項目概述
該模型基於 bert-base-multilingual-cased,在 multilingual_go_emotions 數據集上進行微調,用於多標籤分類任務。
相關鏈接
✨ 主要特性
- 多語言支持:支持阿拉伯語(ar)、英語(en)、法語(fr)、西班牙語(es)、荷蘭語(nl)和土耳其語(tr)。
- 多指標評估:使用準確率(accuracy)、F1分數(f1)和召回率(recall)等指標進行評估。
- 多標籤分類:能夠對文本進行多標籤情感分類。
📚 詳細文檔
測試集性能
以下表格展示了微調後的模型在測試集上按情感類別劃分的性能指標:
情感類別 |
準確率 |
精確率 |
召回率 |
F1分數 |
MCC |
樣本數 |
閾值 |
欽佩(admiration) |
0.942 |
0.652 |
0.684 |
0.667 |
0.636 |
2790 |
0.4 |
娛樂(amusement) |
0.973 |
0.735 |
0.817 |
0.774 |
0.76 |
1866 |
0.35 |
憤怒(anger) |
0.96 |
0.411 |
0.364 |
0.386 |
0.366 |
1128 |
0.35 |
煩惱(annoyance) |
0.896 |
0.246 |
0.481 |
0.325 |
0.293 |
1704 |
0.15 |
認可(approval) |
0.91 |
0.329 |
0.383 |
0.354 |
0.307 |
2094 |
0.2 |
關心(caring) |
0.958 |
0.285 |
0.46 |
0.352 |
0.341 |
816 |
0.15 |
困惑(confusion) |
0.965 |
0.444 |
0.401 |
0.421 |
0.404 |
1020 |
0.25 |
好奇(curiosity) |
0.935 |
0.433 |
0.74 |
0.546 |
0.535 |
1734 |
0.25 |
渴望(desire) |
0.984 |
0.404 |
0.534 |
0.46 |
0.457 |
414 |
0.25 |
失望(disappointment) |
0.942 |
0.224 |
0.345 |
0.272 |
0.249 |
1014 |
0.15 |
不認可(disapproval) |
0.935 |
0.306 |
0.413 |
0.352 |
0.322 |
1398 |
0.25 |
厭惡(disgust) |
0.975 |
0.343 |
0.418 |
0.377 |
0.366 |
600 |
0.15 |
尷尬(embarrassment) |
0.99 |
0.28 |
0.242 |
0.26 |
0.255 |
240 |
0.1 |
興奮(excitement) |
0.973 |
0.344 |
0.425 |
0.38 |
0.369 |
624 |
0.15 |
恐懼(fear) |
0.987 |
0.599 |
0.522 |
0.558 |
0.553 |
498 |
0.35 |
感激(gratitude) |
0.989 |
0.924 |
0.902 |
0.913 |
0.907 |
2004 |
0.4 |
悲痛(grief) |
0.999 |
0 |
0 |
0 |
0 |
36 |
0.05 |
喜悅(joy) |
0.965 |
0.454 |
0.532 |
0.49 |
0.474 |
1032 |
0.25 |
愛(love) |
0.973 |
0.731 |
0.829 |
0.777 |
0.765 |
1812 |
0.35 |
緊張(nervousness) |
0.996 |
0.385 |
0.25 |
0.303 |
0.308 |
120 |
0.1 |
樂觀(optimism) |
0.973 |
0.588 |
0.525 |
0.555 |
0.542 |
1062 |
0.25 |
驕傲(pride) |
0.997 |
0 |
0 |
0 |
0 |
84 |
0.05 |
領悟(realization) |
0.962 |
0.202 |
0.189 |
0.195 |
0.176 |
792 |
0.15 |
寬慰(relief) |
0.996 |
0 |
0 |
0 |
0 |
138 |
0.05 |
懊悔(remorse) |
0.988 |
0.597 |
0.808 |
0.687 |
0.689 |
516 |
0.15 |
悲傷(sadness) |
0.97 |
0.548 |
0.434 |
0.484 |
0.473 |
1062 |
0.4 |
驚訝(surprise) |
0.974 |
0.487 |
0.569 |
0.524 |
0.513 |
828 |
0.3 |
中立(neutral) |
0.726 |
0.551 |
0.818 |
0.658 |
0.468 |
10524 |
0.2 |
微調性能
以下圖表展示了模型在微調過程中各輪次的性能:
損失曲線(訓練集 vs. 驗證集)

準確率曲線(訓練集 vs. 驗證集)

F1分數曲線(訓練集 vs. 驗證集)

🔧 技術細節
數據集
- 名稱:AnasAlokla/multilingual_go_emotions
- 支持語言:阿拉伯語(ar)、英語(en)、法語(fr)、西班牙語(es)、荷蘭語(nl)和土耳其語(tr)
評估指標
- 準確率(accuracy)
- F1分數(f1)
- 召回率(recall)
基礎模型
- google-bert/bert-base-multilingual-cased
任務類型
- 文本分類(text-classification)