🚀 answerdotai-ModernBERT-base-ai-detector
本模型是基于 answerdotai/ModernBERT-base 在AI与人类文本分类数据集 DAIGT V2 Train Dataset 上进行微调的版本。它在评估集上取得了如下结果:
🚀 快速开始
本模型可用于识别AI生成文本和人类撰写文本,在AI内容检测、文本分类等领域有广泛应用。
✨ 主要特性
- 基于轻量级且高效的 ModernBERT-base 模型。
- 经过微调,可有效区分AI生成文本(如ChatGPT、DeepSeek、Claude等生成的文本)和人类撰写的文本。
📦 安装指南
文档未提及安装步骤,可参考 transformers
库的官方安装指南进行安装。
💻 使用示例
基础用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline
model_name = "answerdotai/ModernBERT-base-ai-detector"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)
text = "This text was written by an AI model like ChatGPT."
result = classifier(text)
print(result)
📚 详细文档
📝 模型描述
本模型基于 ModernBERT-base,这是一个轻量级且高效的基于BERT的模型。它经过微调,用于进行 AI生成文本与人类撰写文本的分类,能够区分 AI模型(如ChatGPT、DeepSeek、Claude等) 生成的文本和人类作者撰写的文本。
🎯 预期用途与局限性
✅ 预期用途
- AI生成内容检测(例如检测ChatGPT、Claude、DeepSeek生成的内容)。
- 文本分类,用于区分人类撰写的内容和AI生成的内容。
- AI内容检测的教育与研究应用。
⚠️ 局限性
- 并非100%准确:部分AI生成的文本可能与人类写作相似,反之亦然。
- 受训练数据集范围限制:对于 领域外 的文本可能表现不佳。
- 存在偏差风险:如果数据集存在偏差,模型可能会继承该偏差。
📊 训练和评估数据
- 该模型在 35,894个训练样本 和 8,974个测试样本 上进行了微调。
- 数据集包含 AI生成的文本样本(如ChatGPT、Claude、DeepSeek等生成的文本) 和 人类撰写的样本(如维基百科、书籍、文章)。
- 标签:
⚙️ 训练过程
训练超参数
训练过程中使用了以下超参数:
属性 |
详情 |
学习率 |
2e-5 |
训练批次大小 |
16 |
评估批次大小 |
16 |
优化器 |
AdamW (β1=0.9, β2=0.999, ε=1e-08 ) |
学习率调度器 |
Linear |
训练轮数 |
3 |
混合精度 |
Native AMP (fp16) |
📈 训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
0.0505 |
0.22 |
500 |
0.0214 |
0.0114 |
0.44 |
1000 |
0.0110 |
0.0088 |
0.66 |
1500 |
0.0032 |
0.0 |
0.89 |
2000 |
0.0048 |
0.0068 |
1.11 |
2500 |
0.0035 |
0.0 |
1.33 |
3000 |
0.0040 |
0.0 |
1.55 |
3500 |
0.0097 |
0.0053 |
1.78 |
4000 |
0.0101 |
0.0 |
2.00 |
4500 |
0.0053 |
0.0 |
2.22 |
5000 |
0.0039 |
0.0017 |
2.45 |
5500 |
0.0046 |
0.0 |
2.67 |
6000 |
0.0043 |
0.0 |
2.89 |
6500 |
0.0036 |
🛠 框架版本
库 |
版本 |
Transformers |
4.48.3 |
PyTorch |
2.5.1+cu124 |
Datasets |
3.3.2 |
Tokenizers |
0.21.0 |
📄 许可证
本项目采用 apache-2.0
许可证。