bert-election2020-twitter-stance-biden-KE-MLM开源模型 - 精准检测2020美大选推特拜登立场

首页

Bert Election2020 Twitter Stance Biden KE MLM

由 kornosk 开发

这是一个基于BERT-base架构的预训练语言模型，专门针对2020年美国大选期间关于乔·拜登的推特立场检测任务进行优化。

文本分类英语开源协议:Gpl-3.0 #政治立场检测 #推特文本分析 #知识增强预训练

下载量 69

发布时间 : 3/2/2022

模型简介

该模型通过知识增强的掩码语言模型(KE-MLM)方法预训练，并在标注的推特数据集上微调，用于检测对乔·拜登的支持、反对或中立立场。

模型特点

知识增强预训练

采用知识增强的掩码语言模型(KE-MLM)方法进行预训练，提高了立场检测的准确性

专业领域优化

专门针对2020年美国大选政治推文进行优化，在政治立场检测任务上表现优异

三分类架构

能够识别支持、反对和中立三种不同的立场类别

模型能力

文本分类

立场检测

政治文本分析

社交媒体内容分析

使用案例

政治分析

候选人支持度分析

分析社交媒体上对乔·拜登的支持、反对和中立态度分布

可量化评估候选人在社交媒体上的受欢迎程度

舆论监测

实时监测社交媒体上关于政治人物的舆论倾向变化

帮助政治团队及时调整竞选策略

学术研究

政治传播研究

用于研究政治信息在社交媒体上的传播模式和效果

为政治传播学提供数据支持

🚀 2020年美国推特大选针对拜登立场检测的预训练BERT模型（KE - MLM）

本项目提供了用于立场检测的知识增强掩码语言模型（NAACL 2021）中KE - MLM模型的预训练权重。该模型可用于检测针对乔·拜登的立场，具有重要的政治分析价值。

✨ 主要特性

基于超500万条关于2020年美国总统大选的英文推文进行预训练。
利用立场标注数据针对乔·拜登的立场检测进行微调。
以BERT - base为基础初始化，通过正常的MLM目标进行训练，并针对乔·拜登的立场检测对分类层进行微调。

📦 安装指南

文档未提及具体安装步骤，可参考官方仓库获取安装相关信息。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np

# choose GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# select mode path here
pretrained_LM_path = "kornosk/bert-election2020-twitter-stance-biden-KE-MLM"

# load model
tokenizer = AutoTokenizer.from_pretrained(pretrained_LM_path)
model = AutoModelForSequenceClassification.from_pretrained(pretrained_LM_path)

id2label = {
    0: "AGAINST",
    1: "FAVOR",
    2: "NONE"
}

##### Prediction Neutral #####
sentence = "Hello World."
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()

print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])

##### Prediction Favor #####
sentence = "Go Go Biden!!!"
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()

print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])

##### Prediction Against #####
sentence = "Biden is the worst."
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()

print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])

# please consider citing our paper if you feel this is useful :)

📚 详细文档

此预训练语言模型针对乔·拜登的立场检测任务进行了微调。更多详细信息请参考官方仓库。

🔧 技术细节

训练数据

该模型在超过500万条关于2020年美国总统大选的英文推文上进行预训练，然后使用我们的立场标注数据针对乔·拜登的立场检测进行微调。

训练目标

模型以BERT - base为基础进行初始化，使用正常的MLM目标进行训练，并针对乔·拜登的立场检测对分类层进行微调。

📄 许可证

本项目采用GPL - 3.0许可证。

📖 参考资料

用于立场检测的知识增强掩码语言模型，NAACL 2021。

📚 引用格式

@inproceedings{kawintiranon2021knowledge,
    title={Knowledge Enhanced Masked Language Model for Stance Detection},
    author={Kawintiranon, Kornraphop and Singh, Lisa},
    booktitle={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
    year={2021},
    publisher={Association for Computational Linguistics},
    url={https://www.aclweb.org/anthology/2021.naacl-main.376}
}