hebEMO_joy开源情感检测工具 - 免费检测希伯来语UGC情感极性

首页

Hebemo Joy

由 avichr 开发

HebEMO是一款用于检测现代希伯来语用户生成内容（UGC）情感极性并提取情感的工具，其训练基于独特的新冠相关数据集。

文本分类

Transformers

#希伯来语情感分析 #高精度F1-0.96 #新闻评论处理

下载量 125

发布时间 : 3/2/2022

模型简介

HebEMO能够识别希伯来语文本的情感极性（积极/中性/消极）和八种基本情绪（愤怒、厌恶、期待、恐惧、快乐、悲伤、惊讶和信任）。

模型特点

高性能情感分析

在情感极性分类任务中取得加权平均F1分数0.96的优异表现

多情绪识别

可识别八种基本情绪，除惊讶情绪外其他情绪的F1分数达到0.78-0.97

专业数据集

基于独特的新冠相关希伯来语新闻评论数据集训练，包含35万条句子

易用性

提供Hugging Face空间演示和Colab笔记本，支持简单API调用

模型能力

希伯来语文本情感分析

多情绪识别

用户生成内容分析

情感极性分类

使用案例

社交媒体分析

新闻评论情感分析

分析新闻网站用户评论的情感倾向

可准确识别评论中的积极、中性和消极情绪

市场研究

产品反馈分析

分析希伯来语用户对产品的评价和反馈

可识别用户表达的具体情绪如愤怒、快乐等

🚀 HebEMO - 现代希伯来语情感识别模型

HebEMO 是一款用于检测现代希伯来语用户生成内容（UGC）极性并提取情感的工具。它基于我们收集并标注的独特新冠疫情相关数据集进行训练。

HebEMO 在极性分类方面表现出色，加权平均 F1 分数达到 0.96。情感检测的 F1 分数在 0.78 - 0.97 之间，但“惊讶”情绪除外，该模型对其捕捉效果不佳（F1 = 0.41）。即便与英语模型相比，这些结果也优于目前报道的最佳性能。

🚀 快速开始

你可以通过以下方式使用 HebEMO 模型：

情感识别模型

在线模型可在 huggingface spaces 找到，也可以使用 colab notebook：

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

示例图片

情感分类模型（仅极性）

from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# how to use?
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')	
>>>  [[{'label': 'neutral', 'score': 0.9978172183036804},
>>>  {'label': 'positive', 'score': 0.0014792329166084528},
>>>  {'label': 'negative', 'score': 0.0007035882445052266}]]

sentiment_analysis('קפה זה טעים')
>>>  [[{'label': 'neutral', 'score': 0.00047328314394690096},
>>>  {'label': 'possitive', 'score': 0.9994067549705505},
>>>  {'label': 'negetive', 'score': 0.00011996887042187154}]]

sentiment_analysis('אני לא אוהב את העולם')
>>>  [[{'label': 'neutral', 'score': 9.214012970915064e-05}, 
>>>  {'label': 'possitive', 'score': 8.876807987689972e-05}, 
>>>  {'label': 'negetive', 'score': 0.9998190999031067}]]

✨ 主要特性

能够检测现代希伯来语用户生成内容的极性和情感。
在极性分类和大部分情感检测任务中表现优异。
基于独特的新冠疫情相关数据集训练。

📚 详细文档

情感UGC数据描述

我们的UGC数据包含从2020年1月至2020年8月期间，从3家主要以色列新闻网站收集的新闻文章评论。数据总大小约为150MB，包含超过700万个单词和35万个句子。

约2000个句子由众包成员（每个句子有3 - 10名标注员）标注了整体情感（极性）和八种情感：愤怒、厌恶、期待、恐惧、喜悦、悲伤、惊讶和信任。

每种情感在句子中出现的比例如下表所示：

	愤怒	厌恶	期待	恐惧	喜悦	悲伤	惊讶	信任	情感倾向
比例	0.78	0.83	0.58	0.45	0.12	0.59	0.17	0.11	0.25

性能

情感识别

情感	F1分数	精确率	召回率
愤怒	0.96	0.99	0.93
厌恶	0.97	0.98	0.96
期待	0.82	0.80	0.87
恐惧	0.79	0.88	0.72
喜悦	0.90	0.97	0.84
悲伤	0.90	0.86	0.94
惊讶	0.40	0.44	0.37
信任	0.83	0.86	0.80

以上指标为正类（即文本中反映出该情感）的指标。

情感（极性）分析

	精确率	召回率	F1分数
中性	0.83	0.56	0.67
积极	0.96	0.92	0.94
消极	0.97	0.99	0.98
准确率			0.97
宏平均	0.92	0.82	0.86
加权平均	0.96	0.97	0.96

情感（极性）分析模型也可在AWS上使用！更多信息请访问 AWS的git仓库

📄 许可证

暂未提及相关许可证信息。

📞 联系我们

Avichay Chriqui
Inbal yahav
The Coller Semitic Languages AI Lab

感谢！ תודה！ شكرا！

📚 引用说明

如果您使用了此模型，请按以下方式引用： Chriqui, A., & Yahav, I. (2021). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. arXiv preprint arXiv:2102.01909.

@article{chriqui2021hebert,
  title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={arXiv preprint arXiv:2102.01909},
  year={2021}
}