🚀 多语言GoEmotions聊天机器人任务报告
本项目基于GoEmotions数据集,构建了一个多语言情感分类模型和聊天机器人,可有效处理多种语言的情感分类任务。
🚀 快速开始
项目概述
该模型基于 bert-base-multilingual-cased,在 multilingual_go_emotions 数据集上进行微调,用于多标签分类任务。
相关链接
✨ 主要特性
- 多语言支持:支持阿拉伯语(ar)、英语(en)、法语(fr)、西班牙语(es)、荷兰语(nl)和土耳其语(tr)。
- 多指标评估:使用准确率(accuracy)、F1分数(f1)和召回率(recall)等指标进行评估。
- 多标签分类:能够对文本进行多标签情感分类。
📚 详细文档
测试集性能
以下表格展示了微调后的模型在测试集上按情感类别划分的性能指标:
情感类别 |
准确率 |
精确率 |
召回率 |
F1分数 |
MCC |
样本数 |
阈值 |
钦佩(admiration) |
0.942 |
0.652 |
0.684 |
0.667 |
0.636 |
2790 |
0.4 |
娱乐(amusement) |
0.973 |
0.735 |
0.817 |
0.774 |
0.76 |
1866 |
0.35 |
愤怒(anger) |
0.96 |
0.411 |
0.364 |
0.386 |
0.366 |
1128 |
0.35 |
烦恼(annoyance) |
0.896 |
0.246 |
0.481 |
0.325 |
0.293 |
1704 |
0.15 |
认可(approval) |
0.91 |
0.329 |
0.383 |
0.354 |
0.307 |
2094 |
0.2 |
关心(caring) |
0.958 |
0.285 |
0.46 |
0.352 |
0.341 |
816 |
0.15 |
困惑(confusion) |
0.965 |
0.444 |
0.401 |
0.421 |
0.404 |
1020 |
0.25 |
好奇(curiosity) |
0.935 |
0.433 |
0.74 |
0.546 |
0.535 |
1734 |
0.25 |
渴望(desire) |
0.984 |
0.404 |
0.534 |
0.46 |
0.457 |
414 |
0.25 |
失望(disappointment) |
0.942 |
0.224 |
0.345 |
0.272 |
0.249 |
1014 |
0.15 |
不认可(disapproval) |
0.935 |
0.306 |
0.413 |
0.352 |
0.322 |
1398 |
0.25 |
厌恶(disgust) |
0.975 |
0.343 |
0.418 |
0.377 |
0.366 |
600 |
0.15 |
尴尬(embarrassment) |
0.99 |
0.28 |
0.242 |
0.26 |
0.255 |
240 |
0.1 |
兴奋(excitement) |
0.973 |
0.344 |
0.425 |
0.38 |
0.369 |
624 |
0.15 |
恐惧(fear) |
0.987 |
0.599 |
0.522 |
0.558 |
0.553 |
498 |
0.35 |
感激(gratitude) |
0.989 |
0.924 |
0.902 |
0.913 |
0.907 |
2004 |
0.4 |
悲痛(grief) |
0.999 |
0 |
0 |
0 |
0 |
36 |
0.05 |
喜悦(joy) |
0.965 |
0.454 |
0.532 |
0.49 |
0.474 |
1032 |
0.25 |
爱(love) |
0.973 |
0.731 |
0.829 |
0.777 |
0.765 |
1812 |
0.35 |
紧张(nervousness) |
0.996 |
0.385 |
0.25 |
0.303 |
0.308 |
120 |
0.1 |
乐观(optimism) |
0.973 |
0.588 |
0.525 |
0.555 |
0.542 |
1062 |
0.25 |
骄傲(pride) |
0.997 |
0 |
0 |
0 |
0 |
84 |
0.05 |
领悟(realization) |
0.962 |
0.202 |
0.189 |
0.195 |
0.176 |
792 |
0.15 |
宽慰(relief) |
0.996 |
0 |
0 |
0 |
0 |
138 |
0.05 |
懊悔(remorse) |
0.988 |
0.597 |
0.808 |
0.687 |
0.689 |
516 |
0.15 |
悲伤(sadness) |
0.97 |
0.548 |
0.434 |
0.484 |
0.473 |
1062 |
0.4 |
惊讶(surprise) |
0.974 |
0.487 |
0.569 |
0.524 |
0.513 |
828 |
0.3 |
中立(neutral) |
0.726 |
0.551 |
0.818 |
0.658 |
0.468 |
10524 |
0.2 |
微调性能
以下图表展示了模型在微调过程中各轮次的性能:
损失曲线(训练集 vs. 验证集)

准确率曲线(训练集 vs. 验证集)

F1分数曲线(训练集 vs. 验证集)

🔧 技术细节
数据集
- 名称:AnasAlokla/multilingual_go_emotions
- 支持语言:阿拉伯语(ar)、英语(en)、法语(fr)、西班牙语(es)、荷兰语(nl)和土耳其语(tr)
评估指标
- 准确率(accuracy)
- F1分数(f1)
- 召回率(recall)
基础模型
- google-bert/bert-base-multilingual-cased
任务类型
- 文本分类(text-classification)