🚀 2020美國大選推特數據預訓練的BERT模型,用於對唐納德·特朗普的立場檢測 (f-BERT)
本項目提供了 《用於立場檢測的知識增強掩碼語言模型》(2021年北美計算語言學協會年會)中 f-BERT 的預訓練權重。
🚀 快速開始
這個預訓練語言模型是專門針對對唐納德·特朗普的立場檢測任務進行微調的。
更多詳細信息請參考 官方倉庫。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
pretrained_LM_path = "kornosk/bert-election2020-twitter-stance-trump"
tokenizer = AutoTokenizer.from_pretrained(pretrained_LM_path)
model = AutoModelForSequenceClassification.from_pretrained(pretrained_LM_path)
id2label = {
0: "AGAINST",
1: "FAVOR",
2: "NONE"
}
sentence = "Hello World."
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
sentence = "Go Go Trump!!!"
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
sentence = "Trump is the worst."
inputs = tokenizer(sentence.lower(), return_tensors="pt")
outputs = model(**inputs)
predicted_probability = torch.softmax(outputs[0], dim=1)[0].tolist()
print("Sentence:", sentence)
print("Prediction:", id2label[np.argmax(predicted_probability)])
print("Against:", predicted_probability[0])
print("Favor:", predicted_probability[1])
print("Neutral:", predicted_probability[2])
✨ 主要特性
- 基於超過500萬條關於2020年美國總統大選的英文推文進行預訓練。
- 使用專門的立場標註數據對模型進行微調,以檢測對唐納德·特朗普的立場。
- 模型以BERT-base為基礎進行初始化,並使用正常的掩碼語言模型(MLM)目標進行訓練,同時對分類層進行微調以用於立場檢測。
📦 訓練數據
該模型在超過500萬條關於2020年美國總統大選的英文推文上進行了預訓練。然後使用我們的 立場標註數據 對模型進行微調,以檢測對唐納德·特朗普的立場。
🔧 訓練目標
此模型以BERT-base為初始狀態,使用正常的掩碼語言模型(MLM)目標進行訓練,並對分類層進行微調,以用於檢測對唐納德·特朗普的立場。
📚 參考資料
📖 引用格式
@inproceedings{kawintiranon2021knowledge,
title={Knowledge Enhanced Masked Language Model for Stance Detection},
author={Kawintiranon, Kornraphop and Singh, Lisa},
booktitle={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
year={2021},
publisher={Association for Computational Linguistics},
url={https://www.aclweb.org/anthology/2021.naacl-main.376}
}
📄 許可證
本項目採用GPL-3.0許可證。