BERTAIDetector开源模型 - 准确区分AI生成与人类撰写文本利器

首页

Bertaidetector

由 pritamdeb68 开发

一个微调的BERT模型，用于准确区分AI生成和人类撰写的文本。

文本分类

Transformers

英语开源协议:MIT #AI文本检测 #高准确率分类 #内容审核

下载量 1,646

发布时间 : 1/25/2025

模型简介

该模型基于BERT架构，专门用于文本分类任务，能够识别文本是由AI生成还是人类撰写。适用于内容审核、学术验证等多种场景。

模型特点

精准分类

能够准确区分AI生成的文本和人类撰写的文本。

多场景应用

适用于在线平台内容审核、学术和新闻内容验证等多种场景。

高效训练

在Kaggle T4 GPU上仅用1小时10分钟完成训练。

模型能力

文本分类

AI生成内容检测

人类撰写内容识别

使用案例

内容审核

在线平台内容检测

自动识别平台上的AI生成内容，辅助内容审核。

准确率高达96.65%

学术验证

学术论文检测

帮助教育机构检测学生作业或论文中可能存在的AI生成内容。

新闻验证

新闻内容真实性检查

辅助新闻机构验证内容的真实性，识别可能的AI生成新闻。

🚀 BERT AI 检测器模型卡片

本模型是一个经过微调的 BERT 模型，旨在对文本进行分类，判断其是由 AI 生成还是人类撰写。通过在特定数据集上的训练，该模型在识别文本来源方面表现出色，能为检测 AI 生成内容提供有力支持。

🚀 快速开始

使用以下代码片段加载模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("pritamdeb68/BERTAIDetector")
model = AutoModelForSequenceClassification.from_pretrained("pritamdeb68/BERTAIDetector")

text = "Your text here"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits.argmax(dim=1).item()
print("AI-generated" if predictions == 1 else "Human-written")

✨ 主要特性

精准分类：能够准确区分 AI 生成的文本和人类撰写的文本。
多场景应用：可用于在线平台内容审核、学术和新闻内容验证、检测抄袭或滥用 AI 写作工具等。

📚 详细文档

模型详情

模型描述

此模型是经过微调的 BERT 模型，用于将文本分类为 AI 生成或人类撰写。该模型在 Kaggle LLM Detect 竞赛的数据上进行训练，使用长度从 5 到 100 个单词的可变长度文本输入。微调后的模型在识别文本来源方面达到了很高的准确率，是检测 AI 生成内容的宝贵工具。

开发者：Pritam
支持语言（NLP）：英语
许可证：Apache 2.0
微调基础模型：BERT (base-uncased)

模型来源

仓库：Hugging Face 模型卡片
演示：Streamlit 界面

使用方式

直接使用

该模型旨在检测文本是 AI 生成还是人类撰写。用户可以将文本片段输入到演示中，或直接将模型集成到他们的应用程序中，以实现自动内容分类。

下游应用

潜在的下游应用包括：

在线平台中 AI 生成内容的审核。
学术和新闻内容的验证。
检测抄袭或滥用 AI 写作工具。

不适用场景

该模型不适用于：

检测深度改写的 AI 生成文本。
分析英语以外的语言。
对公平性和偏差考虑至关重要的场景，因为这些方面未得到明确解决。

偏差、风险和局限性

建议

用户应注意：

该模型在处理对 AI 生成内容进行大量修改的文本时可能表现不佳。
由于数据集或模型架构的固有局限性，可能会产生误报或漏报。

训练详情

训练数据

训练数据集来自 Kaggle LLM Detect 竞赛。数据包括 AI 生成和人类撰写的文本示例，输入长度范围为 5 - 100 个单词。

训练过程

预处理

使用 BERT 的分词器对文本进行分词。
输入长度在 5 到 100 个单词之间，必要时进行填充或截断。

训练超参数

批量大小：300
优化器：AdamW
学习率：1e - 5
训练轮数：1

速度、大小、时间

训练时间：1 小时 10 分钟
使用的硬件：GPU (Kaggle T4 x 2)
训练数据损失：0.12

评估

测试数据、因素和指标

测试数据

使用 Kaggle 竞赛的验证数据进行评估。

指标

准确率：在验证数据上达到 96.65%。

结果

该模型实现了高准确率和低验证损失，证明了其在 AI 文本检测任务中的有效性。

环境影响

可以使用机器学习影响计算器估算碳排放：

硬件类型：Kaggle T4 (x2) GPU
训练时长：1 小时 10 分钟
计算区域：未指定

技术规格

模型架构和目标

模型架构：针对文本分类进行微调的 BERT (base-uncased)。
目标：将文本二分类为 AI 生成或人类撰写类别。

计算基础设施

硬件

类型：Kaggle T4(x2) GPU

软件

框架：使用 Transformers 库的 PyTorch

引用

如果您使用此模型，请引用该仓库：

@inproceedings{pritam2024bertaidetector,
  title={BERT AI Detector},
  author={Pritam},
  year={2024},
  url={https://huggingface.co/pritam2014/BERTAIDetector}
}