🚀 感情分析英語DistilRoBERTa-base
このモデルは、英語のテキストデータの感情分類を行うことができます。6種類の多様なデータセットで学習され、エクマンの6つの基本感情と中立クラスを予測します。
🚀 クイックスタート
モデルの概要
このモデルを使用すると、英語のテキストデータの感情を分類できます。モデルは6つの多様なデータセット(下記の付録を参照)で学習され、エクマンの6つの基本感情と中立クラスを予測します。
- 怒り 🤬
- 嫌悪 🤢
- 恐怖 😨
- 喜び 😀
- 中立 😐
- 悲しみ 😭
- 驚き 😲
このモデルは、DistilRoBERTa-base の微調整されたチェックポイントです。「非蒸留」の感情モデルについては、RoBERTa-large バージョンのモデルカードを参照してください。
モデルの実行
単一のテキスト例での実行
Google Colab上でHugging Faceのパイプラインコマンドを使用して、3行のコードで感情モデルを実行できます。

from transformers import pipeline
classifier = pipeline("text-classification", model="j-hartmann/emotion-english-distilroberta-base", return_all_scores=True)
classifier("I love this!")
出力:
[[{'label': 'anger', 'score': 0.004419783595949411},
{'label': 'disgust', 'score': 0.0016119900392368436},
{'label': 'fear', 'score': 0.0004138521908316761},
{'label': 'joy', 'score': 0.9771687984466553},
{'label': 'neutral', 'score': 0.005764586851000786},
{'label': 'sadness', 'score': 0.002092392183840275},
{'label': 'surprise', 'score': 0.008528684265911579}]]
複数の例や完全なデータセットでの実行
Google Colab上で複数の例や完全なデータセット(例:.csvファイル)で感情モデルを実行できます。

✨ 主な機能
- 英語のテキストデータの感情分類が可能です。
- 6種類の多様なデータセットで学習されています。
- エクマンの6つの基本感情と中立クラスを予測します。
📚 ドキュメント
引用
このモデルを使用する場合は、以下の引用を行ってください。近々査読付き論文が公開されます。
Jochen Hartmann, "Emotion English DistilRoBERTa-base". https://huggingface.co/j-hartmann/emotion-english-distilroberta-base/, 2022.
BibTex引用:
@misc{hartmann2022emotionenglish,
author={Hartmann, Jochen},
title={Emotion English DistilRoBERTa-base},
year={2022},
howpublished = {\url{https://huggingface.co/j-hartmann/emotion-english-distilroberta-base/}},
}
学習データセット
学習に使用されたデータセットの概要は以下の通りです。すべてのデータセットは英語のテキストを含んでいます。表は、各データセットで利用可能な感情をまとめたものです。データセットは多様なテキストタイプを表しています。具体的には、Twitter、Reddit、学生の自己報告、テレビの対話からの発話などのテキストの感情ラベルが含まれています。MELD(Multimodal EmotionLines Dataset)は人気のEmotionLinesデータセットを拡張しているため、EmotionLines自体はここには含まれていません。
名前 |
怒り |
嫌悪 |
恐怖 |
喜び |
中立 |
悲しみ |
驚き |
Crowdflower (2016) |
はい |
- |
- |
はい |
はい |
はい |
はい |
Emotion Dataset, Elvis et al. (2018) |
はい |
- |
はい |
はい |
- |
はい |
はい |
GoEmotions, Demszky et al. (2020) |
はい |
はい |
はい |
はい |
はい |
はい |
はい |
ISEAR, Vikash (2018) |
はい |
はい |
はい |
はい |
- |
はい |
- |
MELD, Poria et al. (2019) |
はい |
はい |
はい |
はい |
はい |
はい |
はい |
SemEval-2018, EI-reg, Mohammad et al. (2018) |
はい |
- |
はい |
はい |
- |
はい |
- |
モデルは、上記のデータセットからのバランスの取れたサブセット(感情ごとに2,811件の観測値、つまり合計で約20,000件の観測値)で学習されています。このバランスの取れたサブセットの80%が学習に、20%が評価に使用されています。評価精度は66%(ランダムチャンスのベースラインの1/7 = 14%に対して)です。
科学的応用
「Emotion English DistilRoBERTa-base」を使用した論文のリストは以下の通りです。あなたの論文をリストに追加したい場合は、私にメールを送ってください。
- Butt, S., Sharma, S., Sharma, R., Sidorov, G., & Gelbukh, A. (2022). What goes on inside rumour and non-rumour tweets and their reactions: A Psycholinguistic Analyses. Computers in Human Behavior, 107345.
- Kuang, Z., Zong, S., Zhang, J., Chen, J., & Liu, H. (2022). Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings. arXiv preprint arXiv:2210.00434.
- Rozado, D., Hughes, R., & Halberstadt, J. (2022). Longitudinal analysis of sentiment and emotion in news media headlines using automated labelling with Transformer language models. Plos one, 17(10), e0276367.
💻 コンタクト
質問やフィードバックがある場合は、jochen.hartmann@tum.de までご連絡ください。
このモデルを利用可能にするためにサポートしてくれたSamuel Domdeyと chrsiebert に感謝します。