fake-news-bertオープンソースの虚偽ニュース検出モデル - テキスト内容に基づきニュースの真偽を正確に判断する

ホーム

Fake News Bert

dhruvpalによって開発

これはDistilBERTベースのフェイクニュース検出モデルで、テキスト内容に基づいてニュース記事を真実または虚偽に分類できます。

テキスト分類

Transformers

#軽量BERT #英語ニュース分類 #高精度検出

ダウンロード数 434

リリース時間 : 2/7/2025

モデル概要

このモデルはニュース記事の真偽を検出するために使用され、ソーシャルメディアやニュースサイトのフェイクニュース検出に適しています。

モデル特徴

軽量アーキテクチャ

DistilBERTベースで、精度を維持しながら計算量を削減。

高精度

テストセットで92%の精度を達成。

簡単な統合

Hugging Face Transformersライブラリを通じて簡単にロードして使用可能。

モデル能力

フェイクニュース検出

テキスト分類

使用事例

ファクトチェックプラットフォーム

ソーシャルメディアコンテンツ審査

ソーシャルメディア上のフェイクニュースコンテンツを検出するために使用。

フェイクニュースの検出効率を向上。

ニュース機関

ニュース真偽検証

ニュース機関がニュースコンテンツの真偽を検証するのを支援。

フェイクニュースの拡散を減少。

🚀 ニュースの偽情報検出モデル

このモデルは、テキスト内容に基づいてニュース記事を「本物」または「偽物」に分類する、ニュースの偽情報検出用にファインチューニングされたDistilBERTモデルです。様々なソースから収集された真偽のニュース記事からなるラベル付きデータセットで学習されています。

🚀 クイックスタート

以下のコードを使用して、transformers を使ってモデルをロードし、推論を行うことができます。

from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch

tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")

def predict(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
    return "Fake News" if torch.argmax(probs) == 1 else "Real News"

text = "Breaking: Scientists discover a new element!"
print(predict(text))

✨ 主な機能

与えられたニュース記事が「本物」または「偽物」であるかを検出することができます。
事実検証プラットフォーム、誤情報検出システム、ソーシャルメディアのモデレーションツールに統合することができます。
特定ドメインの偽情報データセットでさらにファインチューニングすることができます。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch

tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")

def predict(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
    return "Fake News" if torch.argmax(probs) == 1 else "Real News"

text = "Breaking: Scientists discover a new element!"
print(predict(text))

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Dhruv Pal
ファインチューニング元	`distilbert-base-uncased`
言語	英語
モデルタイプ	Transformerベースのテキスト分類モデル
ライセンス	MIT
用途	ソーシャルメディアやニュースウェブサイトでのニュースの偽情報検出

モデルのソース

リポジトリ: Hugging Face Model Hub
論文: 該当なし
デモ: 該当なし

使用方法

直接使用

このモデルは、与えられたニュース記事が「本物」または「偽物」であるかを検出するために使用できます。
事実検証プラットフォーム、誤情報検出システム、ソーシャルメディアのモデレーションツールに統合することができます。

下流の使用

特定ドメインの偽情報データセットでさらにファインチューニングすることができます。
メディア会社、ジャーナリスト、誤情報を研究する研究者に役立ちます。

想定外の使用

このモデルは、ニュースコンテンツの生成には設計されていません。
英語以外の言語ではうまく機能しない可能性があります。
外部の知識を必要とする複雑な主張の事実検証には適していません。

バイアス、リスク、制限事項

リスク

モデルは、学習に使用されたデータセットに基づいて、特定のトピック、ソース、または書き方のスタイルに偏っている可能性があります。
誤検知（本物のニュースが偽物と誤分類される） または 見逃し（偽物のニュースが本物と分類される） の可能性があります。
分布外のサンプルでは、モデルの性能が低下する可能性があります。

推奨事項

ユーザーは、このモデルのみに頼って真実性を判断しないでください。
人間による検証と複数のソースからの情報の照合を行うことをお勧めします。

学習の詳細

学習データ

モデルは、「本物」または「偽物」とラベル付けされたニュース記事からなるデータセットで学習されました。このデータセットには、信頼できるソースと誤情報ウェブサイトからの情報が含まれています。

学習手順

前処理:
- DistilBertTokenizerFast を使用したトークン化
- ストップワードと句読点の削除
- テキストを小文字に変換
学習設定:
- モデル: distilbert-base-uncased
- オプティマイザ: AdamW
- バッチサイズ: 16
- エポック数: 3
- 学習率: 2e-5

計算リソース

ハードウェア: NVIDIA Tesla T4 (Google Colab)
学習時間: ~2時間

評価

テストデータ

モデルは、10,000件のニュース記事からなるホールドアウトテストセットで評価されました。

評価指標

正解率: 92%
F1スコア: 90%
適合率: 91%
再現率: 89%

結果

評価指標	スコア
正解率	92%
F1スコア	90%
適合率	91%
再現率	89%

環境への影響

使用したハードウェア: NVIDIA Tesla T4
総計算時間: ~2時間
二酸化炭素排出量: ML Impact Calculator を使用して推定

技術仕様

モデルアーキテクチャ

このモデルは、計算量を削減しながら精度を維持する軽量トランスフォーマーアーキテクチャである DistilBERT に基づいています。

依存関係

transformers
torch
datasets
scikit-learn

🔧 技術詳細

モデルアーキテクチャ

このモデルは、DistilBERTという軽量のトランスフォーマーアーキテクチャに基づいています。DistilBERTは、BERTの知識を蒸留することで、計算量を削減しながら精度を維持するように設計されています。

依存関係

このモデルを使用するには、以下のライブラリが必要です。

transformers
torch
datasets
scikit-learn

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

このモデルを使用する場合は、以下のように引用してください。

@misc{DhruvPal2025FakeNewsDetection,
  title={Fake News Detection with DistilBERT},
  author={Dhruv Pal},
  year={2025},
  howpublished={\url{https://huggingface.co/your-model-id}}
}