🐟 PII-RANHA:隐私保护型标记分类模型
PII-RANHA 是一款基于 Answer.AI 的 ModernBERT-base 微调的标记分类模型。它旨在识别和分类文本数据中的个人身份信息(PII)。该模型在 ai4privacy/pii-masking-400k
数据集上进行训练,能够检测 17 种不同的 PII 类别,如账号号码、信用卡号码、电子邮件地址等。
此模型适用于隐私保护应用,如数据匿名化、编辑处理或遵守数据保护法规。
🚀 快速开始
安装
要使用该模型,请确保已安装 transformers
和 datasets
库:
pip install transformers datasets
推理示例
以下是如何加载和使用该模型进行 PII 检测的示例:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = "scampion/piiranha"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
pii_pipeline = pipeline("token-classification", model=model, tokenizer=tokenizer)
text = "My email is john.doe@example.com and my phone number is 555-123-4567."
results = pii_pipeline(text)
for entity in results:
print(f"Entity: {entity['word']}, Label: {entity['entity']}, Score: {entity['score']:.4f}")
Entity: Ġj, Label: I-ACCOUNTNUM, Score: 0.6445
Entity: ohn, Label: I-ACCOUNTNUM, Score: 0.3657
Entity: ., Label: I-USERNAME, Score: 0.5871
Entity: do, Label: I-USERNAME, Score: 0.5350
Entity: Ġ555, Label: I-ACCOUNTNUM, Score: 0.8399
Entity: -, Label: I-SOCIALNUM, Score: 0.5948
Entity: 123, Label: I-SOCIALNUM, Score: 0.6309
Entity: -, Label: I-SOCIALNUM, Score: 0.6151
Entity: 45, Label: I-SOCIALNUM, Score: 0.3742
Entity: 67, Label: I-TELEPHONENUM, Score: 0.3440
✨ 主要特性
- 基于 Answer.AI 的 ModernBERT-base 微调,专门用于识别和分类文本中的 PII 信息。
- 在
ai4privacy/pii-masking-400k
数据集上训练,可检测 17 种不同的 PII 类别。
- 适用于隐私保护相关应用,助力数据匿名化和法规合规。
📚 详细文档
模型详情
模型架构
- 基础模型:
answerdotai/ModernBERT-base
- 任务:标记分类
- 标签数量:18(17 个 PII 类别 + “O” 表示非 PII 标记)
训练详情
数据集
该模型在 ai4privacy/pii-masking-400k
数据集上进行训练,该数据集包含 400,000 个带有 PII 标记注释的文本示例。
训练配置
- 批次大小:32
- 学习率:5e-5
- 训练轮数:4
- 优化器:AdamW
- 权重衰减:0.01
- 调度器:线性学习率调度器
评估指标
该模型使用以下指标进行评估:
轮数 |
训练损失 |
验证损失 |
精确率 |
召回率 |
F1 分数 |
准确率 |
1 |
0.017100 |
0.017944 |
0.897562 |
0.905612 |
0.901569 |
0.993549 |
2 |
0.011300 |
0.014114 |
0.915451 |
0.923319 |
0.919368 |
0.994782 |
3 |
0.005000 |
0.015703 |
0.919432 |
0.928394 |
0.923892 |
0.995136 |
4 |
0.001000 |
0.022899 |
0.921234 |
0.927212 |
0.924213 |
0.995267 |
📄 许可证
该模型遵循 Commons Clause Apache License 2.0 许可协议。更多详情,请访问 Commons Clause 网站。如需其他许可,请联系作者。
👨💻 作者信息
- 姓名:Sébastien Campion
- 邮箱:sebastien.campion@foss4.eu
- 日期:2025-01-30
- 版本:0.1
📖 引用方式
如果您在工作中使用了该模型,请按以下方式引用:
@misc{piiranha2025,
author = {Sébastien Campion},
title = {PII-RANHA: A Privacy-Preserving Token Classification Model},
year = {2025},
version = {0.1},
url = {https://huggingface.co/sebastien-campion/piiranha},
}
⚠️ 免责声明
本模型“按原样”提供,不保证其性能或适用于特定用例。在部署前,请始终在您的特定环境中评估模型的性能。