🚀 多语言PII信息评估模型
本项目是一个多语言的PII(个人身份信息)评估模型,能够对多种语言的PII信息进行识别和评估,为数据隐私保护提供有力支持。
🚀 快速开始
本项目暂未提供快速开始的相关内容,若有需要可根据模型信息自行尝试。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
answerdotai/ModernBERT-base |
训练数据 |
ai4privacy/open-pii-masking-500k-ai4privacy |
支持语言 |
法语、英语、德语、泰卢固语、印地语、意大利语、西班牙语、荷兰语 |
库名称 |
transformers |
标签 |
PII |
许可证 |
MIT |
评估指标
以下表格总结了每个PII标签的详细评估结果:
标签 |
真阳性(TP) |
假阳性(FP) |
假阴性(FN) |
准确率 |
精确率 |
召回率 |
F1分数 |
姓氏(SURNAME) |
3722 |
0 |
28 |
99.25% |
100.0% |
99.25% |
99.63% |
非PII(O (Non - PII)) |
0 |
400 |
0 |
99.30% |
不适用 |
不适用 |
不适用 |
时间(TIME) |
1936 |
0 |
0 |
100.0% |
100.0% |
100.0% |
100.0% |
驾驶证号码(DRIVERLICENSENUM) |
505 |
0 |
2 |
99.61% |
100.0% |
99.61% |
99.80% |
护照号码(PASSPORTNUM) |
564 |
0 |
2 |
99.65% |
100.0% |
99.65% |
99.82% |
名字(GIVENNAME) |
7548 |
0 |
172 |
97.77% |
100.0% |
97.77% |
98.87% |
电话号码(TELEPHONENUM) |
3641 |
0 |
0 |
100.0% |
100.0% |
100.0% |
100.0% |
楼号(BUILDINGNUM) |
407 |
0 |
19 |
95.54% |
100.0% |
95.54% |
97.72% |
年龄(AGE) |
168 |
0 |
1 |
99.41% |
100.0% |
99.41% |
99.70% |
日期(DATE) |
2335 |
0 |
0 |
100.0% |
100.0% |
100.0% |
100.0% |
城市(CITY) |
1672 |
0 |
130 |
92.79% |
100.0% |
92.79% |
96.26% |
头衔(TITLE) |
349 |
0 |
35 |
90.89% |
100.0% |
90.89% |
95.23% |
身份证号码(IDCARDNUM) |
1998 |
0 |
22 |
98.91% |
100.0% |
98.91% |
99.45% |
性别(GENDER) |
121 |
0 |
0 |
100.0% |
100.0% |
100.0% |
100.0% |
信用卡号码(CREDITCARDNUMBER) |
557 |
0 |
1 |
99.82% |
100.0% |
99.82% |
99.91% |
性别(SEX) |
78 |
0 |
1 |
98.73% |
100.0% |
98.73% |
99.36% |
街道(STREET) |
1368 |
0 |
19 |
98.63% |
100.0% |
98.63% |
99.31% |
税号(TAXNUM) |
345 |
0 |
12 |
96.64% |
100.0% |
96.64% |
98.29% |
电子邮件(EMAIL) |
2606 |
0 |
2 |
99.92% |
100.0% |
99.92% |
99.96% |
社保号码(SOCIALNUM) |
411 |
0 |
11 |
97.39% |
100.0% |
97.39% |
98.68% |
邮政编码(ZIPCODE) |
406 |
0 |
20 |
95.31% |
100.0% |
95.31% |
97.60% |
总体评估
-
准确率:99.01%
-
精确率:98.72%
-
召回率:98.47%
-
F1分数:98.59%
-
总真阳性(TP):30737
-
总假阳性(FP):400
-
总假阴性(FN):477
宏平均指标
- 准确率:98.35%
- 精确率:95.24%
- 召回率:93.35%
- F1分数:94.29%
模型行为与局限性
⚠️ 重要提示
上述指标反映了模型在 open-pii-masking-500k-ai4privacy 数据集测试分割上的性能。实际应用中的性能可能会有所不同,可能需要额外的评估。如有需要,请联系 support@ai4privacy.com 获取帮助。
免责声明
本模型卡片详细介绍了多语言匿名器的评估指标和微调参数。请注意:
- 本模型按“原样”提供,遵循MIT许可证。
- 该模型仅用于信息编辑目的,不进行完整的PII分类。
- 用户在将其部署到生产环境之前,应在自己的数据上仔细测试和评估其性能。
Ai4Privacy – 致力于在人工智能时代保护个人数据。