HebEMO_surprise開源情感檢測模型 - 精準識別現代希伯來語情感極性

首頁

Hebemo Surprise

由avichr開發

HebEMO是一款用於檢測極性和提取情感的現代希伯來語工具，基於新冠相關數據集訓練，在極性分類和情感識別任務中表現優異。

文本分類

Transformers

#希伯來語情感分析 #多情緒識別 #新聞評論處理

下載量 119

發布時間 : 3/2/2022

模型概述

HebEMO是一個專門用於分析現代希伯來語用戶生成內容（UGC）中情感和極性的模型。它能夠識別八種基本情緒（憤怒、厭惡、期待、恐懼、快樂、悲傷、驚訝和信任）以及文本的整體情感極性（積極、消極、中性）。

模型特點

高性能情感識別

在極性分類任務中達到加權平均F1分數0.96，情感識別方面除驚訝情緒外其他情緒的F1分數達到0.78-0.97

專門針對希伯來語優化

基於獨特的現代希伯來語新冠相關數據集訓練，針對希伯來語用戶生成內容進行了專門優化

多情感維度分析

能夠同時識別八種基本情緒（憤怒、厭惡、期待、恐懼、快樂、悲傷、驚訝和信任）

AWS雲端部署

情感（極性）分析模型已在AWS上線，便於雲端集成和使用

模型能力

希伯來語文本情感分析

多維度情緒識別

文本極性分類

用戶生成內容分析

使用案例

社交媒體分析

新聞評論情感分析

分析新聞網站用戶評論中的情感傾向和情緒表達

可準確識別評論中的憤怒、厭惡等負面情緒，幫助內容審核

市場研究

產品反饋分析

分析希伯來語用戶對產品或服務的評價和反饋

準確分類積極/消極反饋，識別用戶情緒

🚀 HebEMO - 現代希伯來語情感識別模型

HebEMO 是一款用於檢測現代希伯來語用戶生成內容（UGC）情感極性並提取情感的工具。它基於我們收集並標註的獨特新冠疫情相關數據集進行訓練。HebEMO 在極性分類方面表現出色，加權平均 F1 分數達到 0.96。在情感檢測方面，除“驚訝”情感（F1 分數為 0.41）外，其他情感的 F1 分數在 0.78 - 0.97 之間。即便與英語模型相比，這些結果也優於目前已報道的最佳性能。

🚀 快速開始

情感識別模型

可以在 huggingface spaces 找到在線模型，也可以使用 colab notebook。

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

示例圖片

情感分類模型（僅極性）

from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# how to use?
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')	
>>>  [[{'label': 'neutral', 'score': 0.9978172183036804},
>>>  {'label': 'positive', 'score': 0.0014792329166084528},
>>>  {'label': 'negative', 'score': 0.0007035882445052266}]]

sentiment_analysis('קפה זה טעים')
>>>  [[{'label': 'neutral', 'score': 0.00047328314394690096},
>>>  {'label': 'possitive', 'score': 0.9994067549705505},
>>>  {'label': 'negetive', 'score': 0.00011996887042187154}]]

sentiment_analysis('אני לא אוהב את העולם')
>>>  [[{'label': 'neutral', 'score': 9.214012970915064e-05}, 
>>>  {'label': 'possitive', 'score': 8.876807987689972e-05}, 
>>>  {'label': 'negetive', 'score': 0.9998190999031067}]]

✨ 主要特性

能夠檢測現代希伯來語用戶生成內容（UGC）的情感極性。
可以從文本中提取多種情感，包括憤怒、厭惡、期待、恐懼、喜悅、悲傷、驚訝和信任。
基於獨特的新冠疫情相關數據集訓練，在極性分類和情感檢測方面表現優異。

📦 安裝指南

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git

💻 使用示例

基礎用法

from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

高級用法

from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# how to use?
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')

📚 詳細文檔

情感UGC數據描述

我們的UGC數據包含從2020年1月至2020年8月期間，以色列3家主要新聞網站的新聞文章評論。數據總量約為150 MB，包含超過700萬個單詞和35萬個句子。約2000個句子由眾包人員（每個句子有3 - 10名標註人員）標註了整體情感（極性）和八種情感：憤怒、厭惡、期待、恐懼、喜悅、悲傷、驚訝和信任。每種情感在句子中出現的百分比見下表。

屬性	詳情
憤怒出現比例	0.78
厭惡出現比例	0.83
期待出現比例	0.58
恐懼出現比例	0.45
喜悅出現比例	0.12
悲傷出現比例	0.59
驚訝出現比例	0.17
信任出現比例	0.11
情感極性比例	0.25

性能

情感識別

情感	F1分數	精確率	召回率
憤怒	0.96	0.99	0.93
厭惡	0.97	0.98	0.96
期待	0.82	0.80	0.87
恐懼	0.79	0.88	0.72
喜悅	0.90	0.97	0.84
悲傷	0.90	0.86	0.94
驚訝	0.40	0.44	0.37
信任	0.83	0.86	0.80

情感分類（極性）分析

類別	精確率	召回率	F1分數
中性	0.83	0.56	0.67
積極	0.96	0.92	0.94
消極	0.97	0.99	0.98
準確率			0.97
宏平均	0.92	0.82	0.86
加權平均	0.96	0.97	0.96

⚠️ 重要提示

情感分類（極性）分析模型也可在AWS上使用！更多信息請訪問 AWS' git

🔧 技術細節

HebEMO基於獨特的新冠疫情相關數據集進行訓練，該數據集包含了大量現代希伯來語用戶生成內容（UGC）。通過對這些數據的學習，模型能夠準確地檢測文本的情感極性和提取多種情感。在訓練過程中，採用了先進的深度學習技術，以提高模型的性能和泛化能力。

📄 許可證

文檔未提及相關許可證信息。

📞 聯繫我們

Avichay Chriqui
Inbal yahav
The Coller Semitic Languages AI Lab

感謝使用， תודה, شكرا

📝 引用說明

如果您使用了此模型，請按以下格式引用： Chriqui, A., & Yahav, I. (2022). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. INFORMS Journal on Data Science, forthcoming.

@article{chriqui2021hebert,
  title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={INFORMS Journal on Data Science},
  year={2022}
}