🐟 PII-RANHA:隱私保護型標記分類模型
PII-RANHA 是一款基於 Answer.AI 的 ModernBERT-base 微調的標記分類模型。它旨在識別和分類文本數據中的個人身份信息(PII)。該模型在 ai4privacy/pii-masking-400k
數據集上進行訓練,能夠檢測 17 種不同的 PII 類別,如賬號號碼、信用卡號碼、電子郵件地址等。
此模型適用於隱私保護應用,如數據匿名化、編輯處理或遵守數據保護法規。
🚀 快速開始
安裝
要使用該模型,請確保已安裝 transformers
和 datasets
庫:
pip install transformers datasets
推理示例
以下是如何加載和使用該模型進行 PII 檢測的示例:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = "scampion/piiranha"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
pii_pipeline = pipeline("token-classification", model=model, tokenizer=tokenizer)
text = "My email is john.doe@example.com and my phone number is 555-123-4567."
results = pii_pipeline(text)
for entity in results:
print(f"Entity: {entity['word']}, Label: {entity['entity']}, Score: {entity['score']:.4f}")
Entity: Ġj, Label: I-ACCOUNTNUM, Score: 0.6445
Entity: ohn, Label: I-ACCOUNTNUM, Score: 0.3657
Entity: ., Label: I-USERNAME, Score: 0.5871
Entity: do, Label: I-USERNAME, Score: 0.5350
Entity: Ġ555, Label: I-ACCOUNTNUM, Score: 0.8399
Entity: -, Label: I-SOCIALNUM, Score: 0.5948
Entity: 123, Label: I-SOCIALNUM, Score: 0.6309
Entity: -, Label: I-SOCIALNUM, Score: 0.6151
Entity: 45, Label: I-SOCIALNUM, Score: 0.3742
Entity: 67, Label: I-TELEPHONENUM, Score: 0.3440
✨ 主要特性
- 基於 Answer.AI 的 ModernBERT-base 微調,專門用於識別和分類文本中的 PII 信息。
- 在
ai4privacy/pii-masking-400k
數據集上訓練,可檢測 17 種不同的 PII 類別。
- 適用於隱私保護相關應用,助力數據匿名化和法規合規。
📚 詳細文檔
模型詳情
模型架構
- 基礎模型:
answerdotai/ModernBERT-base
- 任務:標記分類
- 標籤數量:18(17 個 PII 類別 + “O” 表示非 PII 標記)
訓練詳情
數據集
該模型在 ai4privacy/pii-masking-400k
數據集上進行訓練,該數據集包含 400,000 個帶有 PII 標記註釋的文本示例。
訓練配置
- 批次大小:32
- 學習率:5e-5
- 訓練輪數:4
- 優化器:AdamW
- 權重衰減:0.01
- 調度器:線性學習率調度器
評估指標
該模型使用以下指標進行評估:
輪數 |
訓練損失 |
驗證損失 |
精確率 |
召回率 |
F1 分數 |
準確率 |
1 |
0.017100 |
0.017944 |
0.897562 |
0.905612 |
0.901569 |
0.993549 |
2 |
0.011300 |
0.014114 |
0.915451 |
0.923319 |
0.919368 |
0.994782 |
3 |
0.005000 |
0.015703 |
0.919432 |
0.928394 |
0.923892 |
0.995136 |
4 |
0.001000 |
0.022899 |
0.921234 |
0.927212 |
0.924213 |
0.995267 |
📄 許可證
該模型遵循 Commons Clause Apache License 2.0 許可協議。更多詳情,請訪問 Commons Clause 網站。如需其他許可,請聯繫作者。
👨💻 作者信息
- 姓名:Sébastien Campion
- 郵箱:sebastien.campion@foss4.eu
- 日期:2025-01-30
- 版本:0.1
📖 引用方式
如果您在工作中使用了該模型,請按以下方式引用:
@misc{piiranha2025,
author = {Sébastien Campion},
title = {PII-RANHA: A Privacy-Preserving Token Classification Model},
year = {2025},
version = {0.1},
url = {https://huggingface.co/sebastien-campion/piiranha},
}
⚠️ 免責聲明
本模型“按原樣”提供,不保證其性能或適用於特定用例。在部署前,請始終在您的特定環境中評估模型的性能。