hebEMO_fear開源情感檢測模型 - 精準提取現代希伯來語內容情感極性

首頁

Hebemo Fear

由avichr開發

HebEMO是一款用於檢測現代希伯來語用戶生成內容情感極性並提取情感的工具，基於獨特的新冠疫情相關數據集訓練，性能優越。

文本分類

Transformers

#希伯來語情感分析 #多情緒識別 #高精度F1

下載量 111

發布時間 : 3/2/2022

模型概述

HebEMO專注於現代希伯來語的情感分析，能夠識別文本中的情感極性（積極/中性/消極）和八種基本情緒（憤怒、厭惡、期待、恐懼、快樂、悲傷、驚訝和信任）。

模型特點

高性能情感識別

在情感極性分類任務中取得加權平均F1分數0.96的優異表現，超越英語同類模型。

多情緒檢測

能夠識別八種基本情緒，其中憤怒、厭惡等情緒的F1分數高達0.96-0.97。

大規模訓練數據

基於150MB希伯來語用戶生成內容訓練，包含35萬條句子和700萬詞。

易於集成

提供Hugging Face和Colab的在線演示，支持通過pip安裝使用。

模型能力

文本情感極性分析

多情緒識別

希伯來語自然語言處理

用戶生成內容分析

使用案例

社交媒體分析

新聞評論情感分析

分析新聞網站用戶評論的情感傾向

準確識別消極、中性和積極評論

市場研究

產品反饋情緒分析

分析希伯來語用戶對產品的情緒反應

識別快樂、憤怒等具體情緒

🚀 HebEMO - 現代希伯來語情感識別模型

HebEMO 是一款用於檢測現代希伯來語用戶生成內容（UGC）極性並提取情感的工具。它基於我們收集並標註的獨特新冠疫情相關數據集進行訓練。HebEMO 在極性分類方面表現出色，加權平均 F1 分數達到 0.96。情感檢測的 F1 分數在 0.78 - 0.97 之間，但“驚訝”這一情感除外，該模型未能很好地捕捉到這一情感（F1 = 0.41）。即使與英語模型相比，這些結果也優於目前報道的最佳性能。

🚀 快速開始

如果你想使用 HebEMO 模型進行情感分析，可以按照以下步驟操作：

情感識別模型

可以在 huggingface spaces 找到在線模型，也可以使用 colab notebook。

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

示例圖片

極性分類模型（僅極性）

from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# how to use?
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')	
>>>  [[{'label': 'neutral', 'score': 0.9978172183036804},
>>>  {'label': 'positive', 'score': 0.0014792329166084528},
>>>  {'label': 'negative', 'score': 0.0007035882445052266}]]

sentiment_analysis('קפה זה טעים')
>>>  [[{'label': 'neutral', 'score': 0.00047328314394690096},
>>>  {'label': 'possitive', 'score': 0.9994067549705505},
>>>  {'label': 'negetive', 'score': 0.00011996887042187154}]]

sentiment_analysis('אני לא אוהב את העולם')
>>>  [[{'label': 'neutral', 'score': 9.214012970915064e-05}, 
>>>  {'label': 'possitive', 'score': 8.876807987689972e-05}, 
>>>  {'label': 'negetive', 'score': 0.9998190999031067}]]

✨ 主要特性

高精度：在極性分類和情感檢測方面都取得了較高的 F1 分數。
獨特數據集：基於新冠疫情相關的獨特數據集進行訓練。
多用途：可用於情感識別和極性分類。

📦 安裝指南

# 安裝必要的庫
!pip install pyplutchik==0.0.7
!pip install transformers==4.14.1

# 克隆 HeBERT 倉庫
!git clone https://github.com/avichaychriqui/HeBERT.git

💻 使用示例

基礎用法

from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

# 從文件中讀取文本進行分析
HebEMO_model.hebemo(input_path = 'data/text_example.txt')

# 直接輸入文本進行分析
hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

高級用法

from transformers import AutoTokenizer, AutoModel, pipeline

# 加載極性分類模型
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis")
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# 創建情感分析管道
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

# 進行情感分析
sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')

📚 詳細文檔

情感UGC數據描述

我們的 UGC 數據包含從 2020 年 1 月到 2020 年 8 月期間，從 3 個主要以色列新聞網站收集的新聞文章評論。數據總大小約為 150 MB，包含超過 700 萬個單詞和 35 萬個句子。約 2000 個句子由眾包成員（每個句子有 3 - 10 個標註者）標註了整體情感（極性）和八種情感：憤怒、厭惡、期待、恐懼、喜悅、悲傷、驚訝和信任。每種情感出現的句子百分比見下表。

	憤怒	厭惡	期待	恐懼	喜悅	悲傷	驚訝	信任	情感傾向
比例	0.78	0.83	0.58	0.45	0.12	0.59	0.17	0.11	0.25

性能

情感識別

情感	F1 分數	精確率	召回率
憤怒	0.96	0.99	0.93
厭惡	0.97	0.98	0.96
期待	0.82	0.80	0.87
恐懼	0.79	0.88	0.72
喜悅	0.90	0.97	0.84
悲傷	0.90	0.86	0.94
驚訝	0.40	0.44	0.37
信任	0.83	0.86	0.80

以上指標為正類（即文本中反映了該情感）的指標。

情感傾向（極性）分析

	精確率	召回率	F1 分數
中性	0.83	0.56	0.67
積極	0.96	0.92	0.94
消極	0.97	0.99	0.98
準確率			0.97
宏平均	0.92	0.82	0.86
加權平均	0.96	0.97	0.96

情感傾向（極性）分析模型也可在 AWS 上使用！更多信息請訪問 AWS 的 git 倉庫

🔧 技術細節

HebEMO 模型基於獨特的新冠疫情相關數據集進行訓練，該數據集包含大量現代希伯來語的用戶生成內容。模型在極性分類和情感識別任務上進行了優化，通過不斷調整參數和算法，取得了較高的性能。

📄 許可證

文檔未提及相關許可證信息。

📞 聯繫我們

Avichay Chriqui
Inbal yahav
The Coller Semitic Languages AI Lab
感謝您的關注， תודה, شكرا

📝 引用說明

如果您使用了該模型，請按照以下格式引用： Chriqui, A., & Yahav, I. (2022). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. INFORMS Journal on Data Science, forthcoming.

@article{chriqui2021hebert,
  title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={INFORMS Journal on Data Science},
  year={2022}
}