🚀 2020年美国推特大选针对拜登立场检测的预训练BERT模型(KE - MLM)
本项目提供了用于立场检测的知识增强掩码语言模型(NAACL 2021)中KE - MLM模型的预训练权重。该模型可用于检测针对乔·拜登的立场,具有重要的政治分析价值。
✨ 主要特性
- 基于超500万条关于2020年美国总统大选的英文推文进行预训练。
- 利用立场标注数据针对乔·拜登的立场检测进行微调。
- 以BERT - base为基础初始化,通过正常的MLM目标进行训练,并针对乔·拜登的立场检测对分类层进行微调。
📦 安装指南
文档未提及具体安装步骤,可参考官方仓库获取安装相关信息。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
pretrained_LM_path = "kornosk/bert-election2020-twitter-stance-biden-KE-MLM"
tokenizer = AutoTokenizer.from_pretrained(pretrained_LM_path)
model = AutoModelForSequenceClassification.from_pretrained(pretrained_LM_path)
id2label = {
0: "AGAINST",
1: "FAVOR",
2: "NONE"
}
sentence = "Hello World."
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
sentence = "Go Go Biden!!!"
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
sentence = "Biden is the worst."
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
📚 详细文档
此预训练语言模型针对乔·拜登的立场检测任务进行了微调。更多详细信息请参考官方仓库。
🔧 技术细节
训练数据
该模型在超过500万条关于2020年美国总统大选的英文推文上进行预训练,然后使用我们的立场标注数据针对乔·拜登的立场检测进行微调。
训练目标
模型以BERT - base为基础进行初始化,使用正常的MLM目标进行训练,并针对乔·拜登的立场检测对分类层进行微调。
📄 许可证
本项目采用GPL - 3.0许可证。
📖 参考资料
📚 引用格式
@inproceedings{kawintiranon2021knowledge,
title={Knowledge Enhanced Masked Language Model for Stance Detection},
author={Kawintiranon, Kornraphop and Singh, Lisa},
booktitle={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
year={2021},
publisher={Association for Computational Linguistics},
url={https://www.aclweb.org/anthology/2021.naacl-main.376}
}