🚀 answerdotai-ModernBERT-base-ai-detector
本模型是基於 answerdotai/ModernBERT-base 在AI與人類文本分類數據集 DAIGT V2 Train Dataset 上進行微調的版本。它在評估集上取得了如下結果:
🚀 快速開始
本模型可用於識別AI生成文本和人類撰寫文本,在AI內容檢測、文本分類等領域有廣泛應用。
✨ 主要特性
- 基於輕量級且高效的 ModernBERT-base 模型。
- 經過微調,可有效區分AI生成文本(如ChatGPT、DeepSeek、Claude等生成的文本)和人類撰寫的文本。
📦 安裝指南
文檔未提及安裝步驟,可參考 transformers
庫的官方安裝指南進行安裝。
💻 使用示例
基礎用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline
model_name = "answerdotai/ModernBERT-base-ai-detector"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)
text = "This text was written by an AI model like ChatGPT."
result = classifier(text)
print(result)
📚 詳細文檔
📝 模型描述
本模型基於 ModernBERT-base,這是一個輕量級且高效的基於BERT的模型。它經過微調,用於進行 AI生成文本與人類撰寫文本的分類,能夠區分 AI模型(如ChatGPT、DeepSeek、Claude等) 生成的文本和人類作者撰寫的文本。
🎯 預期用途與侷限性
✅ 預期用途
- AI生成內容檢測(例如檢測ChatGPT、Claude、DeepSeek生成的內容)。
- 文本分類,用於區分人類撰寫的內容和AI生成的內容。
- AI內容檢測的教育與研究應用。
⚠️ 侷限性
- 並非100%準確:部分AI生成的文本可能與人類寫作相似,反之亦然。
- 受訓練數據集範圍限制:對於 領域外 的文本可能表現不佳。
- 存在偏差風險:如果數據集存在偏差,模型可能會繼承該偏差。
📊 訓練和評估數據
- 該模型在 35,894個訓練樣本 和 8,974個測試樣本 上進行了微調。
- 數據集包含 AI生成的文本樣本(如ChatGPT、Claude、DeepSeek等生成的文本) 和 人類撰寫的樣本(如維基百科、書籍、文章)。
- 標籤:
⚙️ 訓練過程
訓練超參數
訓練過程中使用了以下超參數:
屬性 |
詳情 |
學習率 |
2e-5 |
訓練批次大小 |
16 |
評估批次大小 |
16 |
優化器 |
AdamW (β1=0.9, β2=0.999, ε=1e-08 ) |
學習率調度器 |
Linear |
訓練輪數 |
3 |
混合精度 |
Native AMP (fp16) |
📈 訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
0.0505 |
0.22 |
500 |
0.0214 |
0.0114 |
0.44 |
1000 |
0.0110 |
0.0088 |
0.66 |
1500 |
0.0032 |
0.0 |
0.89 |
2000 |
0.0048 |
0.0068 |
1.11 |
2500 |
0.0035 |
0.0 |
1.33 |
3000 |
0.0040 |
0.0 |
1.55 |
3500 |
0.0097 |
0.0053 |
1.78 |
4000 |
0.0101 |
0.0 |
2.00 |
4500 |
0.0053 |
0.0 |
2.22 |
5000 |
0.0039 |
0.0017 |
2.45 |
5500 |
0.0046 |
0.0 |
2.67 |
6000 |
0.0043 |
0.0 |
2.89 |
6500 |
0.0036 |
🛠 框架版本
庫 |
版本 |
Transformers |
4.48.3 |
PyTorch |
2.5.1+cu124 |
Datasets |
3.3.2 |
Tokenizers |
0.21.0 |
📄 許可證
本項目採用 apache-2.0
許可證。