🚀 HebEMO - 現代希伯來語情感識別模型
HebEMO 是一款用於檢測現代希伯來語用戶生成內容(UGC)情感極性並提取情感的工具。它基於我們收集並標註的獨特新冠疫情相關數據集進行訓練。HebEMO 在極性分類方面表現出色,加權平均 F1 分數達到 0.96。在情感檢測方面,除“驚訝”情感(F1 分數為 0.41)外,其他情感的 F1 分數在 0.78 - 0.97 之間。即便與英語模型相比,這些結果也優於目前已報道的最佳性能。
🚀 快速開始
情感識別模型
可以在 huggingface spaces 找到在線模型,也可以使用 colab notebook。
!git clone https://github.com/avichaychriqui/HeBERT.git
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()
HebEMO_model.hebemo(input_path = 'data/text_example.txt')
hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

情感分類模型(僅極性)
from transformers import AutoTokenizer, AutoModel, pipeline
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis")
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")
sentiment_analysis = pipeline(
"sentiment-analysis",
model="avichr/heBERT_sentiment_analysis",
tokenizer="avichr/heBERT_sentiment_analysis",
return_all_scores = True
)
sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')
>>> [[{'label': 'neutral', 'score': 0.9978172183036804},
>>> {'label': 'positive', 'score': 0.0014792329166084528},
>>> {'label': 'negative', 'score': 0.0007035882445052266}]]
sentiment_analysis('קפה זה טעים')
>>> [[{'label': 'neutral', 'score': 0.00047328314394690096},
>>> {'label': 'possitive', 'score': 0.9994067549705505},
>>> {'label': 'negetive', 'score': 0.00011996887042187154}]]
sentiment_analysis('אני לא אוהב את העולם')
>>> [[{'label': 'neutral', 'score': 9.214012970915064e-05},
>>> {'label': 'possitive', 'score': 8.876807987689972e-05},
>>> {'label': 'negetive', 'score': 0.9998190999031067}]]
✨ 主要特性
- 能夠檢測現代希伯來語用戶生成內容(UGC)的情感極性。
- 可以從文本中提取多種情感,包括憤怒、厭惡、期待、恐懼、喜悅、悲傷、驚訝和信任。
- 基於獨特的新冠疫情相關數據集訓練,在極性分類和情感檢測方面表現優異。
📦 安裝指南
!git clone https://github.com/avichaychriqui/HeBERT.git
💻 使用示例
基礎用法
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()
HebEMO_model.hebemo(input_path = 'data/text_example.txt')
hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)
高級用法
from transformers import AutoTokenizer, AutoModel, pipeline
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis")
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")
sentiment_analysis = pipeline(
"sentiment-analysis",
model="avichr/heBERT_sentiment_analysis",
tokenizer="avichr/heBERT_sentiment_analysis",
return_all_scores = True
)
sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')
📚 詳細文檔
情感UGC數據描述
我們的UGC數據包含從2020年1月至2020年8月期間,以色列3家主要新聞網站的新聞文章評論。數據總量約為150 MB,包含超過700萬個單詞和35萬個句子。約2000個句子由眾包人員(每個句子有3 - 10名標註人員)標註了整體情感(極性)和八種情感:憤怒、厭惡、期待、恐懼、喜悅、悲傷、驚訝和信任。每種情感在句子中出現的百分比見下表。
屬性 |
詳情 |
憤怒出現比例 |
0.78 |
厭惡出現比例 |
0.83 |
期待出現比例 |
0.58 |
恐懼出現比例 |
0.45 |
喜悅出現比例 |
0.12 |
悲傷出現比例 |
0.59 |
驚訝出現比例 |
0.17 |
信任出現比例 |
0.11 |
情感極性比例 |
0.25 |
性能
情感識別
情感 |
F1分數 |
精確率 |
召回率 |
憤怒 |
0.96 |
0.99 |
0.93 |
厭惡 |
0.97 |
0.98 |
0.96 |
期待 |
0.82 |
0.80 |
0.87 |
恐懼 |
0.79 |
0.88 |
0.72 |
喜悅 |
0.90 |
0.97 |
0.84 |
悲傷 |
0.90 |
0.86 |
0.94 |
驚訝 |
0.40 |
0.44 |
0.37 |
信任 |
0.83 |
0.86 |
0.80 |
情感分類(極性)分析
類別 |
精確率 |
召回率 |
F1分數 |
中性 |
0.83 |
0.56 |
0.67 |
積極 |
0.96 |
0.92 |
0.94 |
消極 |
0.97 |
0.99 |
0.98 |
準確率 |
|
|
0.97 |
宏平均 |
0.92 |
0.82 |
0.86 |
加權平均 |
0.96 |
0.97 |
0.96 |
⚠️ 重要提示
情感分類(極性)分析模型也可在AWS上使用!更多信息請訪問 AWS' git
🔧 技術細節
HebEMO基於獨特的新冠疫情相關數據集進行訓練,該數據集包含了大量現代希伯來語用戶生成內容(UGC)。通過對這些數據的學習,模型能夠準確地檢測文本的情感極性和提取多種情感。在訓練過程中,採用了先進的深度學習技術,以提高模型的性能和泛化能力。
📄 許可證
文檔未提及相關許可證信息。
📞 聯繫我們
感謝使用, תודה, شكرا
📝 引用說明
如果您使用了此模型,請按以下格式引用:
Chriqui, A., & Yahav, I. (2022). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. INFORMS Journal on Data Science, forthcoming.
@article{chriqui2021hebert,
title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
author={Chriqui, Avihay and Yahav, Inbal},
journal={INFORMS Journal on Data Science},
year={2022}
}