hebEMO_joy開源情感檢測工具 - 免費檢測希伯來語UGC情感極性

首頁

Hebemo Joy

由avichr開發

HebEMO是一款用於檢測現代希伯來語用戶生成內容（UGC）情感極性並提取情感的工具，其訓練基於獨特的新冠相關數據集。

文本分類

Transformers

#希伯來語情感分析 #高精度F1-0.96 #新聞評論處理

下載量 125

發布時間 : 3/2/2022

模型概述

HebEMO能夠識別希伯來語文本的情感極性（積極/中性/消極）和八種基本情緒（憤怒、厭惡、期待、恐懼、快樂、悲傷、驚訝和信任）。

模型特點

高性能情感分析

在情感極性分類任務中取得加權平均F1分數0.96的優異表現

多情緒識別

可識別八種基本情緒，除驚訝情緒外其他情緒的F1分數達到0.78-0.97

專業數據集

基於獨特的新冠相關希伯來語新聞評論數據集訓練，包含35萬條句子

易用性

提供Hugging Face空間演示和Colab筆記本，支持簡單API調用

模型能力

希伯來語文本情感分析

多情緒識別

用戶生成內容分析

情感極性分類

使用案例

社交媒體分析

新聞評論情感分析

分析新聞網站用戶評論的情感傾向

可準確識別評論中的積極、中性和消極情緒

市場研究

產品反饋分析

分析希伯來語用戶對產品的評價和反饋

可識別用戶表達的具體情緒如憤怒、快樂等

🚀 HebEMO - 現代希伯來語情感識別模型

HebEMO 是一款用於檢測現代希伯來語用戶生成內容（UGC）極性並提取情感的工具。它基於我們收集並標註的獨特新冠疫情相關數據集進行訓練。

HebEMO 在極性分類方面表現出色，加權平均 F1 分數達到 0.96。情感檢測的 F1 分數在 0.78 - 0.97 之間，但“驚訝”情緒除外，該模型對其捕捉效果不佳（F1 = 0.41）。即便與英語模型相比，這些結果也優於目前報道的最佳性能。

🚀 快速開始

你可以通過以下方式使用 HebEMO 模型：

情感識別模型

在線模型可在 huggingface spaces 找到，也可以使用 colab notebook：

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

示例圖片

情感分類模型（僅極性）

from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# how to use?
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')	
>>>  [[{'label': 'neutral', 'score': 0.9978172183036804},
>>>  {'label': 'positive', 'score': 0.0014792329166084528},
>>>  {'label': 'negative', 'score': 0.0007035882445052266}]]

sentiment_analysis('קפה זה טעים')
>>>  [[{'label': 'neutral', 'score': 0.00047328314394690096},
>>>  {'label': 'possitive', 'score': 0.9994067549705505},
>>>  {'label': 'negetive', 'score': 0.00011996887042187154}]]

sentiment_analysis('אני לא אוהב את העולם')
>>>  [[{'label': 'neutral', 'score': 9.214012970915064e-05}, 
>>>  {'label': 'possitive', 'score': 8.876807987689972e-05}, 
>>>  {'label': 'negetive', 'score': 0.9998190999031067}]]

✨ 主要特性

能夠檢測現代希伯來語用戶生成內容的極性和情感。
在極性分類和大部分情感檢測任務中表現優異。
基於獨特的新冠疫情相關數據集訓練。

📚 詳細文檔

情感UGC數據描述

我們的UGC數據包含從2020年1月至2020年8月期間，從3家主要以色列新聞網站收集的新聞文章評論。數據總大小約為150MB，包含超過700萬個單詞和35萬個句子。

約2000個句子由眾包成員（每個句子有3 - 10名標註員）標註了整體情感（極性）和八種情感：憤怒、厭惡、期待、恐懼、喜悅、悲傷、驚訝和信任。

每種情感在句子中出現的比例如下表所示：

	憤怒	厭惡	期待	恐懼	喜悅	悲傷	驚訝	信任	情感傾向
比例	0.78	0.83	0.58	0.45	0.12	0.59	0.17	0.11	0.25

性能

情感識別

情感	F1分數	精確率	召回率
憤怒	0.96	0.99	0.93
厭惡	0.97	0.98	0.96
期待	0.82	0.80	0.87
恐懼	0.79	0.88	0.72
喜悅	0.90	0.97	0.84
悲傷	0.90	0.86	0.94
驚訝	0.40	0.44	0.37
信任	0.83	0.86	0.80

以上指標為正類（即文本中反映出該情感）的指標。

情感（極性）分析

	精確率	召回率	F1分數
中性	0.83	0.56	0.67
積極	0.96	0.92	0.94
消極	0.97	0.99	0.98
準確率			0.97
宏平均	0.92	0.82	0.86
加權平均	0.96	0.97	0.96

情感（極性）分析模型也可在AWS上使用！更多信息請訪問 AWS的git倉庫

📄 許可證

暫未提及相關許可證信息。

📞 聯繫我們

Avichay Chriqui
Inbal yahav
The Coller Semitic Languages AI Lab

感謝！ תודה！ شكرا！

📚 引用說明

如果您使用了此模型，請按以下方式引用： Chriqui, A., & Yahav, I. (2021). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. arXiv preprint arXiv:2102.01909.

@article{chriqui2021hebert,
  title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={arXiv preprint arXiv:2102.01909},
  year={2021}
}