hebEMO_trust开源情感检测工具 - 免费从希伯来语UGC提取情感极性

首页

Hebemo Trust

由 avichr 开发

HebEMO是一款用于检测极性并从现代希伯来语用户生成内容（UGC）中提取情感的工具，其训练基于独特的Covid-19相关数据集。

文本分类

Transformers

#希伯来语情感分析 #多情绪识别 #高精度极性分类

下载量 119

发布时间 : 3/2/2022

模型简介

HebEMO能够识别希伯来语文本中的情感极性和八种基本情绪（愤怒、厌恶、期待、恐惧、快乐、悲伤、惊讶和信任），在极性分类和情感检测方面表现出色。

模型特点

高性能情感识别

在极性分类方面取得加权平均F1分数=0.96的高性能表现，情感检测的F1分数达到0.78-0.97（惊讶情绪除外）。

多情绪识别

能够识别八种基本情绪：愤怒、厌恶、期待、恐惧、快乐、悲伤、惊讶和信任。

针对希伯来语优化

专门针对现代希伯来语用户生成内容（UGC）进行训练和优化。

可视化支持

提供情感分析结果的可视化展示功能。

模型能力

文本情感极性分析

多情绪识别

希伯来语文本处理

情感可视化

使用案例

社交媒体分析

新闻评论情感分析

分析新闻网站用户评论的情感倾向和情绪表达

可识别评论中的积极/消极倾向和具体情绪

市场研究

产品反馈分析

分析希伯来语用户对产品或服务的反馈情感

帮助了解用户满意度和改进方向

🚀 HebEMO - 现代希伯来语情感识别模型

HebEMO 是一款用于检测现代希伯来语用户生成内容（UGC）极性并提取情感的工具。它基于我们收集并标注的独特新冠疫情相关数据集进行训练。HebEMO 在极性分类任务中取得了加权平均 F1 分数为 0.96 的高性能。情感检测方面，除了“惊讶”情绪（F1 分数为 0.41，模型未能很好地捕捉该情绪），其他情绪的 F1 分数达到了 0.78 - 0.97。这些结果即使与英语语言模型的最佳报告性能相比也更为出色。

🚀 快速开始

情感识别模型

可以在 huggingface spaces 找到在线模型，或者使用 colab notebook。

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

示例图片

情感分类模型（仅极性）

from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# how to use?
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')	
>>>  [[{'label': 'neutral', 'score': 0.9978172183036804},
>>>  {'label': 'positive', 'score': 0.0014792329166084528},
>>>  {'label': 'negative', 'score': 0.0007035882445052266}]]

sentiment_analysis('קפה זה טעים')
>>>  [[{'label': 'neutral', 'score': 0.00047328314394690096},
>>>  {'label': 'possitive', 'score': 0.9994067549705505},
>>>  {'label': 'negetive', 'score': 0.00011996887042187154}]]

sentiment_analysis('אני לא אוהב את העולם')
>>>  [[{'label': 'neutral', 'score': 9.214012970915064e-05}, 
>>>  {'label': 'possitive', 'score': 8.876807987689972e-05}, 
>>>  {'label': 'negetive', 'score': 0.9998190999031067}]]

✨ 主要特性

能够检测现代希伯来语用户生成内容的极性和提取情感。
基于独特的新冠疫情相关数据集训练，在极性分类和情感检测任务中表现出色。

📦 安装指南

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git

💻 使用示例

基础用法

# 情感识别模型基础用法
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

高级用法

# 情感分类模型（仅极性）使用
from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# 进行情感分析
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

# 输入不同文本进行测试
sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')	
sentiment_analysis('קפה זה טעים')
sentiment_analysis('אני לא אוהב את העולם')

📚 详细文档

情感UGC数据描述

我们的UGC数据包含从2020年1月至2020年8月期间，从3家主要以色列新闻网站收集的新闻文章评论。数据总大小约为150 MB，包含超过700万个单词和35万个句子。约2000个句子由众包成员（每个句子有3 - 10名标注者）标注了整体情感（极性）和八种情绪：愤怒、厌恶、期待、恐惧、喜悦、悲伤、惊讶和信任。每种情绪在句子中出现的百分比见下表。

属性	详情
数据来源	2020年1月 - 2020年8月，3家主要以色列新闻网站新闻文章评论
数据大小	约150 MB，超过700万个单词，35万个句子
标注内容	整体情感（极性）和八种情绪（愤怒、厌恶、期待、恐惧、喜悦、悲伤、惊讶和信任）

情绪	愤怒	厌恶	期待	恐惧	喜悦	悲伤	惊讶	信任	情感极性
比例	0.78	0.83	0.58	0.45	0.12	0.59	0.17	0.11	0.25

性能

情感识别

情绪	F1分数	精确率	召回率
愤怒	0.96	0.99	0.93
厌恶	0.97	0.98	0.96
期待	0.82	0.80	0.87
恐惧	0.79	0.88	0.72
喜悦	0.90	0.97	0.84
悲伤	0.90	0.86	0.94
惊讶	0.40	0.44	0.37
信任	0.83	0.86	0.80

以上指标针对正类（即文本中反映出该情绪）。

情感分类（仅极性）

类别	精确率	召回率	F1分数
中性	0.83	0.56	0.67
积极	0.96	0.92	0.94
消极	0.97	0.99	0.98
准确率			0.97
宏平均	0.92	0.82	0.86
加权平均	0.96	0.97	0.96

⚠️ 重要提示

情感分类（极性）模型也可在AWS上使用！更多信息请访问 AWS的git仓库

📄 许可证

文档未提及相关许可证信息。

📞 联系我们

Avichay Chriqui
Inbal yahav
The Coller Semitic Languages AI Lab

感谢！תודה！شكرا！

📚 引用说明

如果您使用了此模型，请按以下格式引用我们： Chriqui, A., & Yahav, I. (2022). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. INFORMS Journal on Data Science, forthcoming.

@article{chriqui2021hebert,
  title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={INFORMS Journal on Data Science},
  year={2022}
}