hebEMO_fear开源情感检测模型 - 精准提取现代希伯来语内容情感极性

首页

Hebemo Fear

由 avichr 开发

HebEMO是一款用于检测现代希伯来语用户生成内容情感极性并提取情感的工具，基于独特的新冠疫情相关数据集训练，性能优越。

文本分类

Transformers

#希伯来语情感分析 #多情绪识别 #高精度F1

下载量 111

发布时间 : 3/2/2022

模型简介

HebEMO专注于现代希伯来语的情感分析，能够识别文本中的情感极性（积极/中性/消极）和八种基本情绪（愤怒、厌恶、期待、恐惧、快乐、悲伤、惊讶和信任）。

模型特点

高性能情感识别

在情感极性分类任务中取得加权平均F1分数0.96的优异表现，超越英语同类模型。

多情绪检测

能够识别八种基本情绪，其中愤怒、厌恶等情绪的F1分数高达0.96-0.97。

大规模训练数据

基于150MB希伯来语用户生成内容训练，包含35万条句子和700万词。

易于集成

提供Hugging Face和Colab的在线演示，支持通过pip安装使用。

模型能力

文本情感极性分析

多情绪识别

希伯来语自然语言处理

用户生成内容分析

使用案例

社交媒体分析

新闻评论情感分析

分析新闻网站用户评论的情感倾向

准确识别消极、中性和积极评论

市场研究

产品反馈情绪分析

分析希伯来语用户对产品的情绪反应

识别快乐、愤怒等具体情绪

🚀 HebEMO - 现代希伯来语情感识别模型

HebEMO 是一款用于检测现代希伯来语用户生成内容（UGC）极性并提取情感的工具。它基于我们收集并标注的独特新冠疫情相关数据集进行训练。HebEMO 在极性分类方面表现出色，加权平均 F1 分数达到 0.96。情感检测的 F1 分数在 0.78 - 0.97 之间，但“惊讶”这一情感除外，该模型未能很好地捕捉到这一情感（F1 = 0.41）。即使与英语模型相比，这些结果也优于目前报道的最佳性能。

🚀 快速开始

如果你想使用 HebEMO 模型进行情感分析，可以按照以下步骤操作：

情感识别模型

可以在 huggingface spaces 找到在线模型，也可以使用 colab notebook。

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

示例图片

极性分类模型（仅极性）

from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# how to use?
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')	
>>>  [[{'label': 'neutral', 'score': 0.9978172183036804},
>>>  {'label': 'positive', 'score': 0.0014792329166084528},
>>>  {'label': 'negative', 'score': 0.0007035882445052266}]]

sentiment_analysis('קפה זה טעים')
>>>  [[{'label': 'neutral', 'score': 0.00047328314394690096},
>>>  {'label': 'possitive', 'score': 0.9994067549705505},
>>>  {'label': 'negetive', 'score': 0.00011996887042187154}]]

sentiment_analysis('אני לא אוהב את העולם')
>>>  [[{'label': 'neutral', 'score': 9.214012970915064e-05}, 
>>>  {'label': 'possitive', 'score': 8.876807987689972e-05}, 
>>>  {'label': 'negetive', 'score': 0.9998190999031067}]]

✨ 主要特性

高精度：在极性分类和情感检测方面都取得了较高的 F1 分数。
独特数据集：基于新冠疫情相关的独特数据集进行训练。
多用途：可用于情感识别和极性分类。

📦 安装指南

# 安装必要的库
!pip install pyplutchik==0.0.7
!pip install transformers==4.14.1

# 克隆 HeBERT 仓库
!git clone https://github.com/avichaychriqui/HeBERT.git

💻 使用示例

基础用法

from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

# 从文件中读取文本进行分析
HebEMO_model.hebemo(input_path = 'data/text_example.txt')

# 直接输入文本进行分析
hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

高级用法

from transformers import AutoTokenizer, AutoModel, pipeline

# 加载极性分类模型
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis")
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# 创建情感分析管道
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

# 进行情感分析
sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')

📚 详细文档

情感UGC数据描述

我们的 UGC 数据包含从 2020 年 1 月到 2020 年 8 月期间，从 3 个主要以色列新闻网站收集的新闻文章评论。数据总大小约为 150 MB，包含超过 700 万个单词和 35 万个句子。约 2000 个句子由众包成员（每个句子有 3 - 10 个标注者）标注了整体情感（极性）和八种情感：愤怒、厌恶、期待、恐惧、喜悦、悲伤、惊讶和信任。每种情感出现的句子百分比见下表。

	愤怒	厌恶	期待	恐惧	喜悦	悲伤	惊讶	信任	情感倾向
比例	0.78	0.83	0.58	0.45	0.12	0.59	0.17	0.11	0.25

性能

情感识别

情感	F1 分数	精确率	召回率
愤怒	0.96	0.99	0.93
厌恶	0.97	0.98	0.96
期待	0.82	0.80	0.87
恐惧	0.79	0.88	0.72
喜悦	0.90	0.97	0.84
悲伤	0.90	0.86	0.94
惊讶	0.40	0.44	0.37
信任	0.83	0.86	0.80

以上指标为正类（即文本中反映了该情感）的指标。

情感倾向（极性）分析

	精确率	召回率	F1 分数
中性	0.83	0.56	0.67
积极	0.96	0.92	0.94
消极	0.97	0.99	0.98
准确率			0.97
宏平均	0.92	0.82	0.86
加权平均	0.96	0.97	0.96

情感倾向（极性）分析模型也可在 AWS 上使用！更多信息请访问 AWS 的 git 仓库

🔧 技术细节

HebEMO 模型基于独特的新冠疫情相关数据集进行训练，该数据集包含大量现代希伯来语的用户生成内容。模型在极性分类和情感识别任务上进行了优化，通过不断调整参数和算法，取得了较高的性能。

📄 许可证

文档未提及相关许可证信息。

📞 联系我们

Avichay Chriqui
Inbal yahav
The Coller Semitic Languages AI Lab
感谢您的关注， תודה, شكرا

📝 引用说明

如果您使用了该模型，请按照以下格式引用： Chriqui, A., & Yahav, I. (2022). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. INFORMS Journal on Data Science, forthcoming.

@article{chriqui2021hebert,
  title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={INFORMS Journal on Data Science},
  year={2022}
}