fake-news-bert開源虛假新聞檢測模型 - 按文本內容精準判斷新聞真假

首頁

Fake News Bert

由dhruvpal開發

這是一個基於DistilBERT的虛假新聞檢測模型，能夠根據文本內容將新聞文章分類為真實或虛假。

文本分類

Transformers

#輕量級BERT #英語新聞分類 #高精度檢測

下載量 434

發布時間 : 2/7/2025

模型概述

該模型用於檢測新聞文章的真實性，適用於社交媒體和新聞網站的虛假新聞檢測。

模型特點

輕量級架構

基於DistilBERT，在保持精度的同時減少計算量。

高準確率

在測試集上達到92%的準確率。

易於集成

可通過Hugging Face Transformers庫輕鬆加載和使用。

模型能力

虛假新聞檢測

文本分類

使用案例

事實核查平臺

社交媒體內容審核

用於檢測社交媒體上的虛假新聞內容。

提高虛假新聞的檢測效率。

新聞機構

新聞真實性驗證

幫助新聞機構驗證新聞內容的真實性。

減少虛假新聞的傳播。

🚀 虛假新聞檢測模型

本模型是一個經過微調的DistilBERT模型，用於檢測新聞的真實性。它能夠根據新聞文本內容，將其分類為真實新聞或虛假新聞，在社交媒體和新聞網站的虛假新聞檢測場景中具有重要價值。

🚀 快速開始

你可以使用transformers庫加載該模型並進行推理，示例代碼如下：

from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch

tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")

def predict(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
    return "Fake News" if torch.argmax(probs) == 1 else "Real News"

text = "Breaking: Scientists discover a new element!"
print(predict(text))

✨ 主要特性

基於DistilBERT架構，在保證準確性的同時減少了計算量。
可用於檢測新聞文章的真實性，能集成到事實核查平臺、錯誤信息檢測系統和社交媒體審核工具中。
可在特定領域的虛假新聞數據集上進一步微調。

📦 安裝指南

文檔未提及安裝步驟，可參考transformers庫的官方安裝說明進行安裝。

💻 使用示例

基礎用法

from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch

tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")

def predict(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
    return "Fake News" if torch.argmax(probs) == 1 else "Real News"

text = "Breaking: Scientists discover a new element!"
print(predict(text))

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
開發者	Dhruv Pal
微調基礎模型	`distilbert-base-uncased`
語言	英語
模型類型	基於Transformer的文本分類模型
許可證	MIT
預期用途	社交媒體和新聞網站的虛假新聞檢測

模型來源

倉庫：Hugging Face Model Hub
論文：無
演示：無

用途

直接使用

該模型可用於檢測給定新聞文章是真實還是虛假。
可集成到事實核查平臺、錯誤信息檢測系統和社交媒體審核工具中。

下游使用

可在特定領域的虛假新聞數據集上進一步微調。
對媒體公司、記者和研究錯誤信息的研究人員有用。

超出適用範圍的使用

該模型並非用於生成新聞內容。
對於英語以外的語言可能效果不佳。
不適用於需要外部知識進行事實核查的複雜聲明。

偏差、風險和侷限性

風險

基於訓練數據集，模型可能對某些主題、來源或寫作風格存在偏差。
存在誤報（真實新聞被誤分類為虛假新聞） 或漏報（虛假新聞被分類為真實新聞） 的可能性。
模型在分佈外樣本上的性能可能會下降。

建議

⚠️ 重要提示

用戶不應僅依賴此模型來確定新聞的真實性。

💡 使用建議

建議使用人工驗證並從多個來源交叉核對信息。

訓練詳情

訓練數據

該模型在一個包含標記為真實或虛假的新聞文章的數據集上進行訓練，該數據集包含來自可靠來源和錯誤信息網站的信息。

訓練過程

預處理：
- 使用DistilBertTokenizerFast進行分詞。
- 去除停用詞和標點符號。
- 將文本轉換為小寫。
訓練配置：
- 模型：distilbert-base-uncased
- 優化器：AdamW
- 批量大小：16
- 訓練輪數：3
- 學習率：2e-5

計算資源

硬件：NVIDIA Tesla T4（Google Colab）
訓練時間：約2小時

評估

測試數據

該模型在一個包含10,000篇新聞文章的保留測試集上進行評估。

指標

指標	得分
準確率	92%
F1分數	90%
精確率	91%
召回率	89%

環境影響

使用的硬件：NVIDIA Tesla T4
總計算時間：約2小時
碳排放：使用ML Impact Calculator估算

技術規格

模型架構

該模型基於DistilBERT，這是一種輕量級的Transformer架構，在保留準確性的同時減少了計算量。

依賴項

transformers
torch
datasets
scikit-learn

📄 許可證

該模型使用MIT許可證。

📚 引用

如果使用此模型，請按以下格式引用：

@misc{DhruvPal2025FakeNewsDetection,
  title={Fake News Detection with DistilBERT},
  author={Dhruv Pal},
  year={2025},
  howpublished={\url{https://huggingface.co/your-model-id}}
}