🚀 虛假新聞檢測模型
本模型是一個經過微調的DistilBERT模型,用於檢測新聞的真實性。它能夠根據新聞文本內容,將其分類為真實新聞或虛假新聞,在社交媒體和新聞網站的虛假新聞檢測場景中具有重要價值。
🚀 快速開始
你可以使用transformers
庫加載該模型並進行推理,示例代碼如下:
from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch
tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")
def predict(text):
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
outputs = model(**inputs)
probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
return "Fake News" if torch.argmax(probs) == 1 else "Real News"
text = "Breaking: Scientists discover a new element!"
print(predict(text))
✨ 主要特性
- 基於DistilBERT架構,在保證準確性的同時減少了計算量。
- 可用於檢測新聞文章的真實性,能集成到事實核查平臺、錯誤信息檢測系統和社交媒體審核工具中。
- 可在特定領域的虛假新聞數據集上進一步微調。
📦 安裝指南
文檔未提及安裝步驟,可參考transformers
庫的官方安裝說明進行安裝。
💻 使用示例
基礎用法
from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch
tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")
def predict(text):
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
outputs = model(**inputs)
probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
return "Fake News" if torch.argmax(probs) == 1 else "Real News"
text = "Breaking: Scientists discover a new element!"
print(predict(text))
📚 詳細文檔
模型詳情
模型描述
屬性 |
詳情 |
開發者 |
Dhruv Pal |
微調基礎模型 |
distilbert-base-uncased |
語言 |
英語 |
模型類型 |
基於Transformer的文本分類模型 |
許可證 |
MIT |
預期用途 |
社交媒體和新聞網站的虛假新聞檢測 |
模型來源
用途
直接使用
- 該模型可用於檢測給定新聞文章是真實還是虛假。
- 可集成到事實核查平臺、錯誤信息檢測系統和社交媒體審核工具中。
下游使用
- 可在特定領域的虛假新聞數據集上進一步微調。
- 對媒體公司、記者和研究錯誤信息的研究人員有用。
超出適用範圍的使用
- 該模型並非用於生成新聞內容。
- 對於英語以外的語言可能效果不佳。
- 不適用於需要外部知識進行事實核查的複雜聲明。
偏差、風險和侷限性
風險
- 基於訓練數據集,模型可能對某些主題、來源或寫作風格存在偏差。
- 存在誤報(真實新聞被誤分類為虛假新聞) 或漏報(虛假新聞被分類為真實新聞) 的可能性。
- 模型在分佈外樣本上的性能可能會下降。
建議
⚠️ 重要提示
用戶不應僅依賴此模型來確定新聞的真實性。
💡 使用建議
建議使用人工驗證並從多個來源交叉核對信息。
訓練詳情
訓練數據
該模型在一個包含標記為真實或虛假的新聞文章的數據集上進行訓練,該數據集包含來自可靠來源和錯誤信息網站的信息。
訓練過程
-
預處理:
- 使用
DistilBertTokenizerFast
進行分詞。
- 去除停用詞和標點符號。
- 將文本轉換為小寫。
-
訓練配置:
- 模型:
distilbert-base-uncased
- 優化器:AdamW
- 批量大小:16
- 訓練輪數:3
- 學習率:2e-5
計算資源
- 硬件:NVIDIA Tesla T4(Google Colab)
- 訓練時間:約2小時
評估
測試數據
該模型在一個包含10,000篇新聞文章的保留測試集上進行評估。
指標
指標 |
得分 |
準確率 |
92% |
F1分數 |
90% |
精確率 |
91% |
召回率 |
89% |
環境影響
技術規格
模型架構
該模型基於DistilBERT,這是一種輕量級的Transformer架構,在保留準確性的同時減少了計算量。
依賴項
transformers
torch
datasets
scikit-learn
📄 許可證
該模型使用MIT許可證。
📚 引用
如果使用此模型,請按以下格式引用:
@misc{DhruvPal2025FakeNewsDetection,
title={Fake News Detection with DistilBERT},
author={Dhruv Pal},
year={2025},
howpublished={\url{https://huggingface.co/your-model-id}}
}
📞 聯繫信息
如有任何疑問,請隨時聯繫: