🚀 EmoSense-ID 模型
EmoSense-ID 是一款专为识别和分析印尼语文本情感而设计的模型。它基于 Plutchik 的八种基本情感理论,能精准剖析文本中的期待、愤怒、厌恶、恐惧、喜悦、悲伤、惊讶和信任等情感。该模型以社交媒体数据为依托,为洞察用户情感反应提供了有力支持。
🚀 快速开始
示例展示
示例标题 |
文本内容 |
主要情感及得分 |
示例 1 |
有人随意往河里扔垃圾,环保活动家为环保发声却入狱,这种人活该过得不好,行为还影响他人。 |
厌恶(0.672) |
示例 2 |
2009 年爪哇邮报记者因报道腐败被杀,2019 年总统对凶手减刑,这是令人痛心的倒退! |
悲伤(0.604) |
示例 3 |
他们的人生经历若拍成电影肯定很火且极具启发性。 |
喜悦(0.9637) |
示例 4 |
强烈要求释放某人,抓腐败分子才对,我很生气! |
愤怒(0.9889) |
示例 5 |
没谈过恋爱,现在很孤独,后悔上学时没多尝试。 |
悲伤(0.9526) |
示例 6 |
印尼广播委员会要求电视节目正面、准确地展示警察形象。 |
期待(0.4323) |
✨ 主要特性
- 情感精准识别:基于 Plutchik 的八种基本情感理论,能准确识别印尼语文本中的情感。
- 数据驱动训练:采用 NusaBERT-base 模型,以印尼推文为训练数据,贴合社交媒体场景。
- 评估结果可靠:运用 Hyperparameter Tuning 技术和 Optuna 进行训练,通过多轮试验确定最优参数组合,保证模型性能。
📚 详细文档
模型描述
EmoSense-ID 模型旨在基于 Plutchik 的八种基本情感(期待、愤怒、厌恶、恐惧、喜悦、悲伤、惊讶和信任),识别和分析印尼语文本中的情感。该模型使用 NusaBERT-base 开发,并使用分类为八种情感类别的印尼推文进行训练。此模型的评估结果可用于分析社交媒体中的情感,为用户的情感反应提供见解。
偏差说明
需注意,该模型使用特定数据进行训练,这可能在情感分类过程中导致偏差。因此,在使用此模型时,考虑并处理此类偏差非常重要。
评估结果
模型使用 Optuna 进行 Hyperparameter Tuning 技术训练。在此过程中,Optuna 进行了五次试验,以确定学习率(1e - 6 至 1e - 4)和权重衰减(1e - 6 至 1e - 2)的最佳组合。每次试验在训练数据集上使用不同的超参数配置训练 BERT 模型,然后使用验证数据集进行评估。所有实验完成后,使用最佳超参数组合训练最终模型。
轮次 |
训练损失 |
验证损失 |
准确率 |
F1 值 |
精确率 |
召回率 |
1 |
0.758400 |
0.583508 |
0.829932 |
0.830203 |
0.833136 |
0.829932 |
2 |
0.370100 |
0.394630 |
0.866213 |
0.865496 |
0.870364 |
0.866213 |
3 |
0.231500 |
0.355294 |
0.884354 |
0.884585 |
0.888140 |
0.884354 |
4 |
0.071000 |
0.322376 |
0.902494 |
0.902801 |
0.904842 |
0.902494 |
5 |
0.129900 |
0.308596 |
0.900227 |
0.900340 |
0.902132 |
0.900227 |
📄 许可证
本模型使用 MIT 许可证。
📚 引用格式
@misc{Ardiyanto_Mikhael_2024,
author = {Mikhael Ardiyanto},
title = {EmoSense-ID},
year = {2024},
URL = {Aardiiiiy/EmoSense-ID-Indonesian-Emotion-Classifier},
publisher = {Hugging Face}
}