🚀 SiEBERT - 英文情感分类模型
本模型(“SiEBERT”,“英文情感分析”的缩写)能够对各类英文文本进行可靠的二分类情感分析,为英文文本情感分析提供了高效且准确的解决方案。
🚀 快速开始
数据集预测
若你想对自己的数据集进行情感预测,我们通过 Google Colab 提供了示例脚本。你可以将数据加载到 Google 云端硬盘,然后在 Colab 的 GPU 上免费运行脚本,设置过程只需几分钟。建议你手动标注部分数据,以评估该模型在你实际应用场景中的性能。若需了解不同情感分析场景下的性能基准值,请参考我们的论文(Hartmann 等人,2023)。

在 Hugging Face 管道中使用
使用该模型进行单条预测最简单的方法是借助 Hugging Face 的 情感分析管道,只需几行代码,示例如下:
from transformers import pipeline
sentiment_analysis = pipeline("sentiment-analysis", model="siebert/sentiment-roberta-large-english")
print(sentiment_analysis("I love this!"))

进一步微调使用
该模型也可作为起点,用于在你特定的数据集上对 RoBERTa 进行进一步微调。具体细节和示例代码请参考 Hugging Face 的 文档。
✨ 主要特性
- 可靠的情感分析:该模型(“SiEBERT”,“英文情感分析”的缩写)是 RoBERTa-large(Liu 等人,2019)的微调版本,能够对各类英文文本进行可靠的二分类情感分析,针对每个文本实例,预测其情感为积极(1)或消极(0)。
- 广泛的泛化能力:模型在来自不同文本来源的 15 个数据集上进行了微调与评估,增强了在不同类型文本(评论、推文等)上的泛化能力。与仅在单一类型文本(如流行的 SST - 2 基准测试中的电影评论)上训练的模型相比,在新数据上的表现更优。
📚 详细文档
性能表现
为评估我们通用情感分析模型的性能,我们从每个数据集中预留了一个评估集,该评估集未用于训练。平均而言,我们的模型比 基于 DistilBERT 的模型(仅在流行的 SST - 2 数据集上微调)高出 15 个百分点以上(78.1% 对比 93.2%,见下表)。作为稳健性检查,我们采用留一法评估模型(在 14 个数据集上训练,在留出的一个数据集上评估),平均而言,模型性能仅下降约 3 个百分点,这凸显了其泛化能力。模型性能以评估集的准确率百分比表示。
数据集 |
DistilBERT SST - 2 |
本模型 |
McAuley 和 Leskovec (2013) (评论) |
84.7 |
98.0 |
McAuley 和 Leskovec (2013) (评论标题) |
65.5 |
87.0 |
Yelp 学术数据集 |
84.8 |
96.5 |
Maas 等人 (2011) |
80.6 |
96.0 |
Kaggle |
87.2 |
96.0 |
Pang 和 Lee (2005) |
89.7 |
91.0 |
Nakov 等人 (2013) |
70.1 |
88.5 |
Shamma (2009) |
76.0 |
87.0 |
Blitzer 等人 (2007) (书籍) |
83.0 |
92.5 |
Blitzer 等人 (2007) (DVD) |
84.5 |
92.5 |
Blitzer 等人 (2007) (电子产品) |
74.5 |
95.0 |
Blitzer 等人 (2007) (厨房设备) |
80.0 |
98.5 |
Pang 等人 (2002) |
73.5 |
95.5 |
Speriosu 等人 (2011) |
71.5 |
85.5 |
Hartmann 等人 (2019) |
65.5 |
98.0 |
平均 |
78.1 |
93.2 |
微调超参数
- 学习率(learning_rate) = 2e - 5
- 训练轮数(num_train_epochs) = 3.0
- 热身步数(warmump_steps) = 500
- 权重衰减(weight_decay) = 0.01
其他参数保持 此处 列出的默认值。
📄 许可证
使用我们的模型时,请引用 这篇论文(发表于 IJRM)。如有任何问题或反馈,请随时联系 christian.siebert@uni - hamburg.de。
@article{hartmann2023,
title = {More than a Feeling: Accuracy and Application of Sentiment Analysis},
journal = {International Journal of Research in Marketing},
volume = {40},
number = {1},
pages = {75-87},
year = {2023},
doi = {https://doi.org/10.1016/j.ijresmar.2022.05.005},
url = {https://www.sciencedirect.com/science/article/pii/S0167811622000477},
author = {Jochen Hartmann and Mark Heitmann and Christian Siebert and Christina Schamp},
}