BERTAIDetectorオープンソースモデル - AI生成テキストと人間による執筆テキストを正確に区別する強力なツール

ホーム

Bertaidetector

pritamdeb68によって開発

AI生成テキストと人間が書いたテキストを正確に区別するための微調整されたBERTモデルです。

テキスト分類

Transformers

英語オープンソースライセンス:MIT #AIテキスト検出 #高精度分類 #コンテンツ審査

ダウンロード数 1,646

リリース時間 : 1/25/2025

モデル概要

このモデルはBERTアーキテクチャに基づいており、テキスト分類タスクに特化しており、テキストがAI生成か人間が書いたものかを識別できます。コンテンツ審査、学術検証などの様々なシーンに適用可能です。

モデル特徴

高精度分類

AI生成テキストと人間が書いたテキストを正確に区別できます。

多シーン適用

オンラインプラットフォームのコンテンツ審査、学術やニュースコンテンツの検証などの様々なシーンに適用可能です。

効率的な学習

Kaggle T4 GPUでわずか1時間10分で学習を完了しました。

モデル能力

テキスト分類

AI生成コンテンツ検出

人間が書いたコンテンツ識別

使用事例

コンテンツ審査

オンラインプラットフォームのコンテンツ検出

プラットフォーム上のAI生成コンテンツを自動的に識別し、コンテンツ審査を支援します。

精度は96.65%に達します

学術検証

学術論文の検出

教育機関が学生の課題や論文に含まれる可能性のあるAI生成コンテンツを検出するのを支援します。

ニュース検証

ニュースコンテンツの真偽チェック

ニュース機関がコンテンツの真偽を検証し、可能性のあるAI生成ニュースを識別するのを支援します。

🚀 BERT AI 検出器モデルカード

このモデルは、微調整された BERT モデルであり、テキストが AI 生成か人間による執筆かを分類することを目的としています。特定のデータセットでの学習を通じて、このモデルはテキストの出所を識別する能力に優れており、AI 生成コンテンツの検出に有力な支援を提供します。

🚀 クイックスタート

以下のコードスニペットを使用してモデルをロードします：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("pritamdeb68/BERTAIDetector")
model = AutoModelForSequenceClassification.from_pretrained("pritamdeb68/BERTAIDetector")

text = "Your text here"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits.argmax(dim=1).item()
print("AI-generated" if predictions == 1 else "Human-written")

✨ 主な機能

高精度な分類：AI 生成のテキストと人間による執筆のテキストを正確に区別できます。
多様なシナリオでの利用：オンラインプラットフォームのコンテンツ審査、学術やニュースコンテンツの検証、コピーライト違反や AI 執筆ツールの乱用の検出などに利用できます。

📚 ドキュメント

モデルの詳細

モデルの説明

このモデルは、テキストを AI 生成または人間による執筆として分類するために微調整された BERT モデルです。このモデルは Kaggle LLM Detect コンペティションのデータで学習され、5 から 100 単語の可変長のテキスト入力を使用しています。微調整後のモデルは、テキストの出所を識別する際に高い精度を達成しており、AI 生成コンテンツの検出に非常に有効なツールです。

開発者：Pritam
サポート言語（NLP）：英語
ライセンス：Apache 2.0
微調整のベースモデル：BERT (base-uncased)

モデルのソース

リポジトリ：Hugging Face モデルカード
デモ：Streamlit インターフェース

使用方法

直接使用

このモデルは、テキストが AI 生成か人間による執筆かを検出することを目的としています。ユーザーはテキストの断片をデモに入力するか、モデルを直接アプリケーションに統合して自動的なコンテンツ分類を実現できます。

下流のアプリケーション

潜在的な下流のアプリケーションには、以下が含まれます：

オンラインプラットフォームでの AI 生成コンテンツの審査。
学術やニュースコンテンツの検証。
コピーライト違反や AI 執筆ツールの乱用の検出。

不適切なシナリオ

このモデルは、以下のシナリオには適していません：

大幅に改変された AI 生成テキストの検出。
英語以外の言語の分析。
公平性やバイアスの考慮が重要なシナリオ。これらの側面は明確に解決されていません。

バイアス、リスク、制限事項

提案

ユーザーは以下に注意する必要があります：

このモデルは、AI 生成コンテンツが大幅に改変されたテキストの処理において性能が低下する可能性があります。
データセットまたはモデルアーキテクチャの固有の制限により、誤検出または見逃しが発生する可能性があります。

学習の詳細

学習データ

学習データセットは Kaggle LLM Detect コンペティションから取得されました。データには AI 生成および人間による執筆のテキスト例が含まれており、入力長は 5 から 100 単語の範囲です。

学習プロセス

前処理

BERT のトークナイザーを使用してテキストをトークン化します。
入力長は 5 から 100 単語の間で、必要に応じてパディングまたはトランケーションを行います。

学習ハイパーパラメータ

バッチサイズ：300
オプティマイザー：AdamW
学習率：1e - 5
学習エポック数：1

速度、サイズ、時間

学習時間：1 時間 10 分
使用したハードウェア：GPU (Kaggle T4 x 2)
学習データの損失：0.12

評価

テストデータ、要因、指標

テストデータ

評価には Kaggle コンペティションの検証データを使用しました。

指標

精度：検証データで 96.65% の精度を達成しました。

結果

このモデルは高い精度と低い検証損失を実現しており、AI テキスト検出タスクにおける有効性を証明しています。

環境への影響

機械学習影響計算機を使用して炭素排出量を推定できます：

ハードウェアタイプ：Kaggle T4 (x2) GPU
学習時間：1 時間 10 分
計算領域：未指定

技術仕様

モデルアーキテクチャと目標

モデルアーキテクチャ：テキスト分類のために微調整された BERT (base-uncased)。
目標：テキストを AI 生成または人間による執筆の 2 つのカテゴリに分類すること。

計算インフラストラクチャ

ハードウェア

タイプ：Kaggle T4(x2) GPU

ソフトウェア

フレームワーク：Transformers ライブラリを使用した PyTorch

引用

このモデルを使用する場合は、以下のリポジトリを引用してください：

@inproceedings{pritam2024bertaidetector,
  title={BERT AI Detector},
  author={Pritam},
  year={2024},
  url={https://huggingface.co/pritam2014/BERTAIDetector}
}