🚀 2020美国大选推特数据预训练的BERT模型,用于对唐纳德·特朗普的立场检测 (f-BERT)
本项目提供了 《用于立场检测的知识增强掩码语言模型》(2021年北美计算语言学协会年会)中 f-BERT 的预训练权重。
🚀 快速开始
这个预训练语言模型是专门针对对唐纳德·特朗普的立场检测任务进行微调的。
更多详细信息请参考 官方仓库。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
pretrained_LM_path = "kornosk/bert-election2020-twitter-stance-trump"
tokenizer = AutoTokenizer.from_pretrained(pretrained_LM_path)
model = AutoModelForSequenceClassification.from_pretrained(pretrained_LM_path)
id2label = {
0: "AGAINST",
1: "FAVOR",
2: "NONE"
}
sentence = "Hello World."
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
sentence = "Go Go Trump!!!"
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
sentence = "Trump is the worst."
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
✨ 主要特性
- 基于超过500万条关于2020年美国总统大选的英文推文进行预训练。
- 使用专门的立场标注数据对模型进行微调,以检测对唐纳德·特朗普的立场。
- 模型以BERT-base为基础进行初始化,并使用正常的掩码语言模型(MLM)目标进行训练,同时对分类层进行微调以用于立场检测。
📦 训练数据
该模型在超过500万条关于2020年美国总统大选的英文推文上进行了预训练。然后使用我们的 立场标注数据 对模型进行微调,以检测对唐纳德·特朗普的立场。
🔧 训练目标
此模型以BERT-base为初始状态,使用正常的掩码语言模型(MLM)目标进行训练,并对分类层进行微调,以用于检测对唐纳德·特朗普的立场。
📚 参考资料
📖 引用格式
@inproceedings{kawintiranon2021knowledge,
title={Knowledge Enhanced Masked Language Model for Stance Detection},
author={Kawintiranon, Kornraphop and Singh, Lisa},
booktitle={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
year={2021},
publisher={Association for Computational Linguistics},
url={https://www.aclweb.org/anthology/2021.naacl-main.376}
}
📄 许可证
本项目采用GPL-3.0许可证。