🚀 基于斯洛伐克BERT的情感分析模型
本项目是一个基于 斯洛伐克BERT 的情感分析分类器。该模型能够区分三种情感等级:
-1
- 负面情感
0
- 中性情感
1
- 正面情感
该模型使用 多语言推特情感分析数据集 [Mozetič等人,2016年] 中的斯洛伐克语部分进行微调,该部分包含50000条手动标注的斯洛伐克语推文。因此,该模型是针对推文进行微调的,不建议将其用于通用的情感分析。
✨ 主要特性
- 基于斯洛伐克BERT模型,能够对斯洛伐克语内容进行情感分析。
- 可区分三种情感等级:负面、中性和正面。
- 针对斯洛伐克语推文进行了微调。
📚 详细文档
结果
该模型在 我们的论文 [Pikuliak等人,2021年,第4.4节] 中进行了评估。在原始数据集上,该模型的F1分数达到了 \(0.67\);在通用评论数据集上,F1分数为 \(0.58\)。
引用
如果您使用了该模型,请引用以下论文:
@inproceedings{pikuliak-etal-2022-slovakbert,
title = "{S}lovak{BERT}: {S}lovak Masked Language Model",
author = "Pikuliak, Mat{\'u}{\v{s}} and
Grivalsk{\'y}, {\v{S}}tefan and
Kon{\^o}pka, Martin and
Bl{\v{s}}t{\'a}k, Miroslav and
Tamajka, Martin and
Bachrat{\'y}, Viktor and
Simko, Marian and
Bal{\'a}{\v{z}}ik, Pavol and
Trnka, Michal and
Uhl{\'a}rik, Filip",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2022",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.findings-emnlp.530",
pages = "7156--7168",
abstract = "We introduce a new Slovak masked language model called \textit{SlovakBERT}. This is to our best knowledge the first paper discussing Slovak transformers-based language models. We evaluate our model on several NLP tasks and achieve state-of-the-art results. This evaluation is likewise the first attempt to establish a benchmark for Slovak language models. We publish the masked language model, as well as the fine-tuned models for part-of-speech tagging, sentiment analysis and semantic textual similarity.",
}
📄 许可证
本项目采用CC(Creative Commons)许可证。
属性 |
详情 |
标签 |
twitter, sentiment-analysis |
指标 |
f1 |
示例文本 |
- Najkrajšia vianočná reklama: Toto milé video vám vykúzli čarovnú atmosféru: Vianoce sa nezadržateľne blížia. - A opäť sa objavili nebezpečné výrobky. Pozrite sa, či ich nemáte doma |
模型类型 |
基于斯洛伐克BERT的情感分析分类器 |
训练数据 |
多语言推特情感分析数据集的斯洛伐克语部分,包含50000条手动标注的斯洛伐克语推文 |