emotion-english-distilroberta-baseオープンソースモデル - 英文テキストの感情を6種類に正確に分類する

ホーム

Emotion English Distilroberta Base

j-hartmannによって開発

DistilRoBERTa-baseをファインチューニングした英語テキストの感情分類モデルで、エクマンの6基本感情と中立カテゴリを予測可能。

テキスト分類

Transformers

英語#エクマンの6基本感情分類 #蒸留モデルによる効率的な推論 #複数データセットでの学習

ダウンロード数 1.1M

リリース時間 : 3/2/2022

モデル概要

このモデルは英語テキストの感情分類に使用され、怒り、嫌悪、恐怖、幸福、中立、悲しみ、驚きの7つの感情カテゴリを識別できます。6つの多様なデータセットで学習されており、様々なテキストタイプの感情分析に適しています。

モデル特徴

多感情分類

エクマンの6基本感情と中立カテゴリを含む7つの異なる感情カテゴリを識別可能。

多様な学習データ

Twitterのツイート、Redditの投稿、学生の自己報告、テレビドラマの対話など、6つの異なる英語データセットで学習。

効率的な蒸留モデル

DistilRoBERTa-baseをベースにファインチューニングされ、性能を維持しながら効率性を向上。

モデル能力

英語テキスト感情分類

多カテゴリ感情予測

使用事例

ソーシャルメディア分析

ツイート感情分析

Twitterツイートにおけるユーザーの感情傾向を分析。

怒り、幸福など7つの感情を識別可能

学術研究

心理言語学研究

テキスト中の感情表現と心理状態の分析に使用。

複数の学術論文で使用実績あり

🚀 感情分析英語DistilRoBERTa-base

このモデルは、英語のテキストデータの感情分類を行うことができます。6種類の多様なデータセットで学習され、エクマンの6つの基本感情と中立クラスを予測します。

🚀 クイックスタート

モデルの概要

このモデルを使用すると、英語のテキストデータの感情を分類できます。モデルは6つの多様なデータセット（下記の付録を参照）で学習され、エクマンの6つの基本感情と中立クラスを予測します。

怒り 🤬
嫌悪 🤢
恐怖 😨
喜び 😀
中立 😐
悲しみ 😭
驚き 😲

このモデルは、DistilRoBERTa-base の微調整されたチェックポイントです。「非蒸留」の感情モデルについては、RoBERTa-large バージョンのモデルカードを参照してください。

モデルの実行

単一のテキスト例での実行

Google Colab上でHugging Faceのパイプラインコマンドを使用して、3行のコードで感情モデルを実行できます。

from transformers import pipeline
classifier = pipeline("text-classification", model="j-hartmann/emotion-english-distilroberta-base", return_all_scores=True)
classifier("I love this!")

出力:
[[{'label': 'anger', 'score': 0.004419783595949411},
  {'label': 'disgust', 'score': 0.0016119900392368436},
  {'label': 'fear', 'score': 0.0004138521908316761},
  {'label': 'joy', 'score': 0.9771687984466553},
  {'label': 'neutral', 'score': 0.005764586851000786},
  {'label': 'sadness', 'score': 0.002092392183840275},
  {'label': 'surprise', 'score': 0.008528684265911579}]]

複数の例や完全なデータセットでの実行

Google Colab上で複数の例や完全なデータセット（例：.csvファイル）で感情モデルを実行できます。

✨ 主な機能

英語のテキストデータの感情分類が可能です。
6種類の多様なデータセットで学習されています。
エクマンの6つの基本感情と中立クラスを予測します。

📚 ドキュメント

引用

このモデルを使用する場合は、以下の引用を行ってください。近々査読付き論文が公開されます。

Jochen Hartmann, "Emotion English DistilRoBERTa-base". https://huggingface.co/j-hartmann/emotion-english-distilroberta-base/, 2022.

BibTex引用:

@misc{hartmann2022emotionenglish,
  author={Hartmann, Jochen},
  title={Emotion English DistilRoBERTa-base},
  year={2022},
  howpublished = {\url{https://huggingface.co/j-hartmann/emotion-english-distilroberta-base/}},
}

学習データセット

学習に使用されたデータセットの概要は以下の通りです。すべてのデータセットは英語のテキストを含んでいます。表は、各データセットで利用可能な感情をまとめたものです。データセットは多様なテキストタイプを表しています。具体的には、Twitter、Reddit、学生の自己報告、テレビの対話からの発話などのテキストの感情ラベルが含まれています。MELD（Multimodal EmotionLines Dataset）は人気のEmotionLinesデータセットを拡張しているため、EmotionLines自体はここには含まれていません。

名前	怒り	嫌悪	恐怖	喜び	中立	悲しみ	驚き
Crowdflower (2016)	はい	-	-	はい	はい	はい	はい
Emotion Dataset, Elvis et al. (2018)	はい	-	はい	はい	-	はい	はい
GoEmotions, Demszky et al. (2020)	はい	はい	はい	はい	はい	はい	はい
ISEAR, Vikash (2018)	はい	はい	はい	はい	-	はい	-
MELD, Poria et al. (2019)	はい	はい	はい	はい	はい	はい	はい
SemEval-2018, EI-reg, Mohammad et al. (2018)	はい	-	はい	はい	-	はい	-

モデルは、上記のデータセットからのバランスの取れたサブセット（感情ごとに2,811件の観測値、つまり合計で約20,000件の観測値）で学習されています。このバランスの取れたサブセットの80％が学習に、20％が評価に使用されています。評価精度は66％（ランダムチャンスのベースラインの1/7 = 14％に対して）です。

科学的応用

「Emotion English DistilRoBERTa-base」を使用した論文のリストは以下の通りです。あなたの論文をリストに追加したい場合は、私にメールを送ってください。

Butt, S., Sharma, S., Sharma, R., Sidorov, G., & Gelbukh, A. (2022). What goes on inside rumour and non-rumour tweets and their reactions: A Psycholinguistic Analyses. Computers in Human Behavior, 107345.
Kuang, Z., Zong, S., Zhang, J., Chen, J., & Liu, H. (2022). Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings. arXiv preprint arXiv:2210.00434.
Rozado, D., Hughes, R., & Halberstadt, J. (2022). Longitudinal analysis of sentiment and emotion in news media headlines using automated labelling with Transformer language models. Plos one, 17(10), e0276367.