🚀 ニュースの偽情報検出モデル
このモデルは、テキスト内容に基づいてニュース記事を「本物」または「偽物」に分類する、ニュースの偽情報検出用にファインチューニングされたDistilBERTモデルです。様々なソースから収集された真偽のニュース記事からなるラベル付きデータセットで学習されています。
🚀 クイックスタート
以下のコードを使用して、transformers
を使ってモデルをロードし、推論を行うことができます。
from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch
tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")
def predict(text):
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
outputs = model(**inputs)
probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
return "Fake News" if torch.argmax(probs) == 1 else "Real News"
text = "Breaking: Scientists discover a new element!"
print(predict(text))
✨ 主な機能
- 与えられたニュース記事が「本物」または「偽物」であるかを検出することができます。
- 事実検証プラットフォーム、誤情報検出システム、ソーシャルメディアのモデレーションツールに統合することができます。
- 特定ドメインの偽情報データセットでさらにファインチューニングすることができます。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch
tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")
def predict(text):
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
outputs = model(**inputs)
probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
return "Fake News" if torch.argmax(probs) == 1 else "Real News"
text = "Breaking: Scientists discover a new element!"
print(predict(text))
📚 ドキュメント
モデルの詳細
属性 |
详情 |
開発者 |
Dhruv Pal |
ファインチューニング元 |
distilbert-base-uncased |
言語 |
英語 |
モデルタイプ |
Transformerベースのテキスト分類モデル |
ライセンス |
MIT |
用途 |
ソーシャルメディアやニュースウェブサイトでのニュースの偽情報検出 |
モデルのソース
使用方法
直接使用
- このモデルは、与えられたニュース記事が「本物」または「偽物」であるかを検出するために使用できます。
- 事実検証プラットフォーム、誤情報検出システム、ソーシャルメディアのモデレーションツールに統合することができます。
下流の使用
- 特定ドメインの偽情報データセットでさらにファインチューニングすることができます。
- メディア会社、ジャーナリスト、誤情報を研究する研究者に役立ちます。
想定外の使用
- このモデルは、ニュースコンテンツの生成には設計されていません。
- 英語以外の言語ではうまく機能しない可能性があります。
- 外部の知識を必要とする複雑な主張の事実検証には適していません。
バイアス、リスク、制限事項
リスク
- モデルは、学習に使用されたデータセットに基づいて、特定のトピック、ソース、または書き方のスタイルに偏っている可能性があります。
- 誤検知(本物のニュースが偽物と誤分類される) または 見逃し(偽物のニュースが本物と分類される) の可能性があります。
- 分布外のサンプルでは、モデルの性能が低下する可能性があります。
推奨事項
- ユーザーは、このモデルのみに頼って真実性を判断しないでください。
- 人間による検証と複数のソースからの情報の照合を行うことをお勧めします。
学習の詳細
学習データ
モデルは、「本物」または「偽物」とラベル付けされたニュース記事からなるデータセットで学習されました。このデータセットには、信頼できるソースと誤情報ウェブサイトからの情報が含まれています。
学習手順
-
前処理:
DistilBertTokenizerFast
を使用したトークン化
- ストップワードと句読点の削除
- テキストを小文字に変換
-
学習設定:
- モデル:
distilbert-base-uncased
- オプティマイザ: AdamW
- バッチサイズ: 16
- エポック数: 3
- 学習率: 2e-5
計算リソース
- ハードウェア: NVIDIA Tesla T4 (Google Colab)
- 学習時間: ~2時間
評価
テストデータ
モデルは、10,000件のニュース記事からなるホールドアウトテストセットで評価されました。
評価指標
- 正解率: 92%
- F1スコア: 90%
- 適合率: 91%
- 再現率: 89%
結果
評価指標 |
スコア |
正解率 |
92% |
F1スコア |
90% |
適合率 |
91% |
再現率 |
89% |
環境への影響
技術仕様
モデルアーキテクチャ
このモデルは、計算量を削減しながら精度を維持する軽量トランスフォーマーアーキテクチャである DistilBERT に基づいています。
依存関係
transformers
torch
datasets
scikit-learn
🔧 技術詳細
モデルアーキテクチャ
このモデルは、DistilBERTという軽量のトランスフォーマーアーキテクチャに基づいています。DistilBERTは、BERTの知識を蒸留することで、計算量を削減しながら精度を維持するように設計されています。
依存関係
このモデルを使用するには、以下のライブラリが必要です。
transformers
torch
datasets
scikit-learn
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
このモデルを使用する場合は、以下のように引用してください。
@misc{DhruvPal2025FakeNewsDetection,
title={Fake News Detection with DistilBERT},
author={Dhruv Pal},
year={2025},
howpublished={\url{https://huggingface.co/your-model-id}}
}
連絡先
何か質問があれば、以下の連絡先までお気軽にお問い合わせください。