🚀 EmoSense-ID 模型
EmoSense-ID 是一款專為識別和分析印尼語文本情感而設計的模型。它基於 Plutchik 的八種基本情感理論,能精準剖析文本中的期待、憤怒、厭惡、恐懼、喜悅、悲傷、驚訝和信任等情感。該模型以社交媒體數據為依託,為洞察用戶情感反應提供了有力支持。
🚀 快速開始
示例展示
示例標題 |
文本內容 |
主要情感及得分 |
示例 1 |
有人隨意往河裡扔垃圾,環保活動家為環保發聲卻入獄,這種人活該過得不好,行為還影響他人。 |
厭惡(0.672) |
示例 2 |
2009 年爪哇郵報記者因報道腐敗被殺,2019 年總統對兇手減刑,這是令人痛心的倒退! |
悲傷(0.604) |
示例 3 |
他們的人生經歷若拍成電影肯定很火且極具啟發性。 |
喜悅(0.9637) |
示例 4 |
強烈要求釋放某人,抓腐敗分子才對,我很生氣! |
憤怒(0.9889) |
示例 5 |
沒談過戀愛,現在很孤獨,後悔上學時沒多嘗試。 |
悲傷(0.9526) |
示例 6 |
印尼廣播委員會要求電視節目正面、準確地展示警察形象。 |
期待(0.4323) |
✨ 主要特性
- 情感精準識別:基於 Plutchik 的八種基本情感理論,能準確識別印尼語文本中的情感。
- 數據驅動訓練:採用 NusaBERT-base 模型,以印尼推文為訓練數據,貼合社交媒體場景。
- 評估結果可靠:運用 Hyperparameter Tuning 技術和 Optuna 進行訓練,通過多輪試驗確定最優參數組合,保證模型性能。
📚 詳細文檔
模型描述
EmoSense-ID 模型旨在基於 Plutchik 的八種基本情感(期待、憤怒、厭惡、恐懼、喜悅、悲傷、驚訝和信任),識別和分析印尼語文本中的情感。該模型使用 NusaBERT-base 開發,並使用分類為八種情感類別的印尼推文進行訓練。此模型的評估結果可用於分析社交媒體中的情感,為用戶的情感反應提供見解。
偏差說明
需注意,該模型使用特定數據進行訓練,這可能在情感分類過程中導致偏差。因此,在使用此模型時,考慮並處理此類偏差非常重要。
評估結果
模型使用 Optuna 進行 Hyperparameter Tuning 技術訓練。在此過程中,Optuna 進行了五次試驗,以確定學習率(1e - 6 至 1e - 4)和權重衰減(1e - 6 至 1e - 2)的最佳組合。每次試驗在訓練數據集上使用不同的超參數配置訓練 BERT 模型,然後使用驗證數據集進行評估。所有實驗完成後,使用最佳超參數組合訓練最終模型。
輪次 |
訓練損失 |
驗證損失 |
準確率 |
F1 值 |
精確率 |
召回率 |
1 |
0.758400 |
0.583508 |
0.829932 |
0.830203 |
0.833136 |
0.829932 |
2 |
0.370100 |
0.394630 |
0.866213 |
0.865496 |
0.870364 |
0.866213 |
3 |
0.231500 |
0.355294 |
0.884354 |
0.884585 |
0.888140 |
0.884354 |
4 |
0.071000 |
0.322376 |
0.902494 |
0.902801 |
0.904842 |
0.902494 |
5 |
0.129900 |
0.308596 |
0.900227 |
0.900340 |
0.902132 |
0.900227 |
📄 許可證
本模型使用 MIT 許可證。
📚 引用格式
@misc{Ardiyanto_Mikhael_2024,
author = {Mikhael Ardiyanto},
title = {EmoSense-ID},
year = {2024},
URL = {Aardiiiiy/EmoSense-ID-Indonesian-Emotion-Classifier},
publisher = {Hugging Face}
}