hebEMO_anticipation开源情感检测模型 - 免费检测希伯来语UGC情感极性和提取情绪

首页

Hebemo Anticipation

由 avichr 开发

HebEMO是一款用于检测现代希伯来语用户生成内容（UGC）情感极性和提取情绪的工具，基于独特的新冠相关数据集训练。

文本分类

Transformers

#希伯来语情感分析 #多情绪识别 #新闻评论分析

下载量 114

发布时间 : 3/2/2022

模型简介

该模型能够识别希伯来语文本的情感极性（积极/中性/消极）和八种基本情绪（愤怒、厌恶、期待、恐惧、快乐、悲伤、惊讶和信任）。

模型特点

高性能情感分析

在情感极性分类任务中取得加权平均F1分数0.96的优异表现

多情绪识别

可识别八种基本情绪，多数情绪的F1分数在0.78-0.97之间

专业数据集

基于新冠期间以色列新闻网站评论构建的独特数据集，包含35万条句子

优于英语模型

性能表现优于已报道的最佳英语情感分析模型

模型能力

文本情感分析

情绪检测

希伯来语自然语言处理

用户生成内容分析

使用案例

社交媒体分析

新闻评论情绪监测

分析新闻网站用户评论的情感倾向和情绪反应

可识别愤怒、厌恶等负面情绪，帮助内容审核

市场研究

产品反馈分析

分析希伯来语用户对产品或服务的评价

准确区分积极、中性和消极评价

🚀 HebEMO - 现代希伯来语情感识别模型

HebEMO 是一款用于检测现代希伯来语用户生成内容（UGC）极性并提取情感的工具。它基于我们收集并标注的独特新冠疫情相关数据集进行训练。

HebEMO 在极性分类方面表现出色，加权平均 F1 分数达到了 0.96。情感检测的 F1 分数在 0.78 - 0.97 之间，但“惊讶”这一情感除外，该模型未能很好地捕捉到这一情感（F1 = 0.41）。即便与英语语言模型相比，这些结果也优于目前已报道的最佳表现。

✨ 主要特性

能够检测现代希伯来语用户生成内容的极性。
可以从文本中提取八种不同的情感。
在极性分类和多数情感检测上表现优异。

📦 安装指南

# 安装所需依赖
!pip install pyplutchik==0.0.7
!pip install transformers==4.14.1

# 克隆 HeBERT 仓库
!git clone https://github.com/avichaychriqui/HeBERT.git

💻 使用示例

基础用法

from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

# 从文件中读取文本进行分析
HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# 返回分析后的 pandas.DataFrame  

# 直接输入文本进行分析并绘制图表
hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

示例图片

高级用法

情感分类模型（仅极性分类）

from transformers import AutoTokenizer, AutoModel, pipeline

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") # 与 'avichr/heBERT' 分词器相同
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# 创建情感分析管道
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

# 进行情感分析
print(sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים'))
print(sentiment_analysis('קפה זה טעים'))
print(sentiment_analysis('אני לא אוהב את העולם'))

📚 详细文档

情感 UGC 数据描述

我们的用户生成内容数据包含了从 2020 年 1 月至 2020 年 8 月期间，从 3 家主要以色列新闻网站收集的新闻文章评论。数据总大小约为 150 MB，包含超过 700 万个单词和 35 万个句子。

约 2000 个句子由众包人员（每个句子有 3 - 10 名标注人员）进行标注，标注内容包括整体情感（极性）和八种情感：愤怒、厌恶、期待、恐惧、喜悦、悲伤、惊讶和信任。

每种情感在句子中出现的比例如下表所示：

	愤怒	厌恶	期待	恐惧	喜悦	悲伤	惊讶	信任	情感极性
比例	0.78	0.83	0.58	0.45	0.12	0.59	0.17	0.11	0.25

性能表现

情感识别

情感	F1 分数	精确率	召回率
愤怒	0.96	0.99	0.93
厌恶	0.97	0.98	0.96
期待	0.82	0.80	0.87
恐惧	0.79	0.88	0.72
喜悦	0.90	0.97	0.84
悲伤	0.90	0.86	0.94
惊讶	0.40	0.44	0.37
信任	0.83	0.86	0.80

以上指标为正类（即文本中反映出该情感）的指标。

情感分类（仅极性）

	精确率	召回率	F1 分数
中性	0.83	0.56	0.67
积极	0.96	0.92	0.94
消极	0.97	0.99	0.98
准确率			0.97
宏平均	0.92	0.82	0.86
加权平均	0.96	0.97	0.96

⚠️ 重要提示

情感分类模型（仅极性）也可在 AWS 上使用！更多信息请访问 AWS 的 git 仓库。

📄 许可证

文档中未提及许可证相关信息。

🔗 联系我们

Avichay Chriqui
Inbal yahav
科勒闪米特语言人工智能实验室

感谢您的关注！

📖 引用说明

如果您使用了该模型，请按以下格式引用我们的工作： Chriqui, A., & Yahav, I. (2022). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. INFORMS Journal on Data Science, forthcoming.

@article{chriqui2021hebert,
  title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={INFORMS Journal on Data Science},
  year={2022}
}