🚀 BERT AI 検出器モデルカード
このモデルは、微調整された BERT モデルであり、テキストが AI 生成か人間による執筆かを分類することを目的としています。特定のデータセットでの学習を通じて、このモデルはテキストの出所を識別する能力に優れており、AI 生成コンテンツの検出に有力な支援を提供します。
🚀 クイックスタート
以下のコードスニペットを使用してモデルをロードします:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("pritamdeb68/BERTAIDetector")
model = AutoModelForSequenceClassification.from_pretrained("pritamdeb68/BERTAIDetector")
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits.argmax(dim=1).item()
print("AI-generated" if predictions == 1 else "Human-written")
✨ 主な機能
- 高精度な分類:AI 生成のテキストと人間による執筆のテキストを正確に区別できます。
- 多様なシナリオでの利用:オンラインプラットフォームのコンテンツ審査、学術やニュースコンテンツの検証、コピーライト違反や AI 執筆ツールの乱用の検出などに利用できます。
📚 ドキュメント
モデルの詳細
モデルの説明
このモデルは、テキストを AI 生成または人間による執筆として分類するために微調整された BERT モデルです。このモデルは Kaggle LLM Detect コンペティション のデータで学習され、5 から 100 単語の可変長のテキスト入力を使用しています。微調整後のモデルは、テキストの出所を識別する際に高い精度を達成しており、AI 生成コンテンツの検出に非常に有効なツールです。
- 開発者:Pritam
- サポート言語(NLP):英語
- ライセンス:Apache 2.0
- 微調整のベースモデル:BERT (base-uncased)
モデルのソース
使用方法
直接使用
このモデルは、テキストが AI 生成か人間による執筆かを検出することを目的としています。ユーザーはテキストの断片をデモに入力するか、モデルを直接アプリケーションに統合して自動的なコンテンツ分類を実現できます。
下流のアプリケーション
潜在的な下流のアプリケーションには、以下が含まれます:
- オンラインプラットフォームでの AI 生成コンテンツの審査。
- 学術やニュースコンテンツの検証。
- コピーライト違反や AI 執筆ツールの乱用の検出。
不適切なシナリオ
このモデルは、以下のシナリオには適していません:
- 大幅に改変された AI 生成テキストの検出。
- 英語以外の言語の分析。
- 公平性やバイアスの考慮が重要なシナリオ。これらの側面は明確に解決されていません。
バイアス、リスク、制限事項
提案
ユーザーは以下に注意する必要があります:
- このモデルは、AI 生成コンテンツが大幅に改変されたテキストの処理において性能が低下する可能性があります。
- データセットまたはモデルアーキテクチャの固有の制限により、誤検出または見逃しが発生する可能性があります。
学習の詳細
学習データ
学習データセットは Kaggle LLM Detect コンペティション から取得されました。データには AI 生成および人間による執筆のテキスト例が含まれており、入力長は 5 から 100 単語の範囲です。
学習プロセス
前処理
- BERT のトークナイザーを使用してテキストをトークン化します。
- 入力長は 5 から 100 単語の間で、必要に応じてパディングまたはトランケーションを行います。
学習ハイパーパラメータ
- バッチサイズ:300
- オプティマイザー:AdamW
- 学習率:1e - 5
- 学習エポック数:1
速度、サイズ、時間
- 学習時間:1 時間 10 分
- 使用したハードウェア:GPU (Kaggle T4 x 2)
- 学習データの損失:0.12
評価
テストデータ、要因、指標
テストデータ
評価には Kaggle コンペティションの検証データを使用しました。
指標
- 精度:検証データで 96.65% の精度を達成しました。
結果
このモデルは高い精度と低い検証損失を実現しており、AI テキスト検出タスクにおける有効性を証明しています。
環境への影響
機械学習影響計算機 を使用して炭素排出量を推定できます:
- ハードウェアタイプ:Kaggle T4 (x2) GPU
- 学習時間:1 時間 10 分
- 計算領域:未指定
技術仕様
モデルアーキテクチャと目標
- モデルアーキテクチャ:テキスト分類のために微調整された BERT (base-uncased)。
- 目標:テキストを AI 生成または人間による執筆の 2 つのカテゴリに分類すること。
計算インフラストラクチャ
ハードウェア
ソフトウェア
- フレームワーク:Transformers ライブラリを使用した PyTorch
引用
このモデルを使用する場合は、以下のリポジトリを引用してください:
@inproceedings{pritam2024bertaidetector,
title={BERT AI Detector},
author={Pritam},
year={2024},
url={https://huggingface.co/pritam2014/BERTAIDetector}
}
📄 ライセンス
このプロジェクトは MIT ライセンスの下で提供されています。