BERTAIDetector開源模型 - 準確區分AI生成與人類撰寫文本利器

首頁

Bertaidetector

由pritamdeb68開發

一個微調的BERT模型，用於準確區分AI生成和人類撰寫的文本。

文本分類

Transformers

英語開源協議:MIT #AI文本檢測 #高準確率分類 #內容審核

下載量 1,646

發布時間 : 1/25/2025

模型概述

該模型基於BERT架構，專門用於文本分類任務，能夠識別文本是由AI生成還是人類撰寫。適用於內容審核、學術驗證等多種場景。

模型特點

精準分類

能夠準確區分AI生成的文本和人類撰寫的文本。

多場景應用

適用於在線平臺內容審核、學術和新聞內容驗證等多種場景。

高效訓練

在Kaggle T4 GPU上僅用1小時10分鐘完成訓練。

模型能力

文本分類

AI生成內容檢測

人類撰寫內容識別

使用案例

內容審核

在線平臺內容檢測

自動識別平臺上的AI生成內容，輔助內容審核。

準確率高達96.65%

學術驗證

學術論文檢測

幫助教育機構檢測學生作業或論文中可能存在的AI生成內容。

新聞驗證

新聞內容真實性檢查

輔助新聞機構驗證內容的真實性，識別可能的AI生成新聞。

🚀 BERT AI 檢測器模型卡片

本模型是一個經過微調的 BERT 模型，旨在對文本進行分類，判斷其是由 AI 生成還是人類撰寫。通過在特定數據集上的訓練，該模型在識別文本來源方面表現出色，能為檢測 AI 生成內容提供有力支持。

🚀 快速開始

使用以下代碼片段加載模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("pritamdeb68/BERTAIDetector")
model = AutoModelForSequenceClassification.from_pretrained("pritamdeb68/BERTAIDetector")

text = "Your text here"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits.argmax(dim=1).item()
print("AI-generated" if predictions == 1 else "Human-written")

✨ 主要特性

精準分類：能夠準確區分 AI 生成的文本和人類撰寫的文本。
多場景應用：可用於在線平臺內容審核、學術和新聞內容驗證、檢測抄襲或濫用 AI 寫作工具等。

📚 詳細文檔

模型詳情

模型描述

此模型是經過微調的 BERT 模型，用於將文本分類為 AI 生成或人類撰寫。該模型在 Kaggle LLM Detect 競賽的數據上進行訓練，使用長度從 5 到 100 個單詞的可變長度文本輸入。微調後的模型在識別文本來源方面達到了很高的準確率，是檢測 AI 生成內容的寶貴工具。

開發者：Pritam
支持語言（NLP）：英語
許可證：Apache 2.0
微調基礎模型：BERT (base-uncased)

模型來源

倉庫：Hugging Face 模型卡片
演示：Streamlit 界面

使用方式

直接使用

該模型旨在檢測文本是 AI 生成還是人類撰寫。用戶可以將文本片段輸入到演示中，或直接將模型集成到他們的應用程序中，以實現自動內容分類。

下游應用

潛在的下游應用包括：

在線平臺中 AI 生成內容的審核。
學術和新聞內容的驗證。
檢測抄襲或濫用 AI 寫作工具。

不適用場景

該模型不適用於：

檢測深度改寫的 AI 生成文本。
分析英語以外的語言。
對公平性和偏差考慮至關重要的場景，因為這些方面未得到明確解決。

偏差、風險和侷限性

建議

用戶應注意：

該模型在處理對 AI 生成內容進行大量修改的文本時可能表現不佳。
由於數據集或模型架構的固有侷限性，可能會產生誤報或漏報。

訓練詳情

訓練數據

訓練數據集來自 Kaggle LLM Detect 競賽。數據包括 AI 生成和人類撰寫的文本示例，輸入長度範圍為 5 - 100 個單詞。

訓練過程

預處理

使用 BERT 的分詞器對文本進行分詞。
輸入長度在 5 到 100 個單詞之間，必要時進行填充或截斷。

訓練超參數

批量大小：300
優化器：AdamW
學習率：1e - 5
訓練輪數：1

速度、大小、時間

訓練時間：1 小時 10 分鐘
使用的硬件：GPU (Kaggle T4 x 2)
訓練數據損失：0.12

評估

測試數據、因素和指標

測試數據

使用 Kaggle 競賽的驗證數據進行評估。

指標

準確率：在驗證數據上達到 96.65%。

結果

該模型實現了高準確率和低驗證損失，證明了其在 AI 文本檢測任務中的有效性。

環境影響

可以使用機器學習影響計算器估算碳排放：

硬件類型：Kaggle T4 (x2) GPU
訓練時長：1 小時 10 分鐘
計算區域：未指定

技術規格

模型架構和目標

模型架構：針對文本分類進行微調的 BERT (base-uncased)。
目標：將文本二分類為 AI 生成或人類撰寫類別。

計算基礎設施

硬件

類型：Kaggle T4(x2) GPU

軟件

框架：使用 Transformers 庫的 PyTorch

引用

如果您使用此模型，請引用該倉庫：

@inproceedings{pritam2024bertaidetector,
  title={BERT AI Detector},
  author={Pritam},
  year={2024},
  url={https://huggingface.co/pritam2014/BERTAIDetector}
}