llama-ai4privacy-multilingual-anonymiser-openpii开源模型 - 支持8种语言PII信息识别与脱敏

Llama Ai4privacy Multilingual Anonymiser Openpii

由 ai4privacy 开发

基于ModernBERT架构的多语言PII匿名化模型，支持8种语言的个人身份信息识别与脱敏

下载量 127

发布时间 : 3/23/2025

模型简介

该模型专门用于识别和匿名化文本中的个人身份信息(PII)，支持多种PII类型和语言，适用于隐私保护场景

多语言支持

支持8种语言的PII识别，包括欧洲和亚洲主要语言

高精度识别

在测试集上整体F1分数达到98.59%，多数PII类型识别准确率超过99%

广泛PII覆盖

支持21种PII标签识别，包括姓名、证件号、联系方式等多种敏感信息

零假阳性

多数PII类型识别假阳性率为0，确保非PII内容不会被错误标记

文本中的PII识别

多语言PII检测

敏感信息匿名化

隐私数据保护

数据隐私保护

用户数据匿名化处理

在存储或共享用户数据前自动识别并匿名化PII信息

可有效降低数据泄露风险，符合GDPR等隐私法规要求

日志脱敏

对系统日志中的敏感信息进行自动脱敏处理

保护日志中的用户隐私同时保留日志分析价值

合规性检查

隐私合规审计

自动检测文档和数据库中可能存在的PII信息

帮助组织识别隐私合规风险点

本项目是一个多语言的PII（个人身份信息）评估模型，能够对多种语言的PII信息进行识别和评估，为数据隐私保护提供有力支持。

本项目暂未提供快速开始的相关内容，若有需要可根据模型信息自行尝试。

属性	详情
模型类型	answerdotai/ModernBERT-base
训练数据	ai4privacy/open-pii-masking-500k-ai4privacy
支持语言	法语、英语、德语、泰卢固语、印地语、意大利语、西班牙语、荷兰语
库名称	transformers
标签	PII
许可证	MIT

以下表格总结了每个PII标签的详细评估结果：

标签	真阳性(TP)	假阳性(FP)	假阴性(FN)	准确率	精确率	召回率	F1分数
姓氏(SURNAME)	3722	0	28	99.25%	100.0%	99.25%	99.63%
非PII(O (Non - PII))	0	400	0	99.30%	不适用	不适用	不适用
时间(TIME)	1936	0	0	100.0%	100.0%	100.0%	100.0%
驾驶证号码(DRIVERLICENSENUM)	505	0	2	99.61%	100.0%	99.61%	99.80%
护照号码(PASSPORTNUM)	564	0	2	99.65%	100.0%	99.65%	99.82%
名字(GIVENNAME)	7548	0	172	97.77%	100.0%	97.77%	98.87%
电话号码(TELEPHONENUM)	3641	0	0	100.0%	100.0%	100.0%	100.0%
楼号(BUILDINGNUM)	407	0	19	95.54%	100.0%	95.54%	97.72%
年龄(AGE)	168	0	1	99.41%	100.0%	99.41%	99.70%
日期(DATE)	2335	0	0	100.0%	100.0%	100.0%	100.0%
城市(CITY)	1672	0	130	92.79%	100.0%	92.79%	96.26%
头衔(TITLE)	349	0	35	90.89%	100.0%	90.89%	95.23%
身份证号码(IDCARDNUM)	1998	0	22	98.91%	100.0%	98.91%	99.45%
性别(GENDER)	121	0	0	100.0%	100.0%	100.0%	100.0%
信用卡号码(CREDITCARDNUMBER)	557	0	1	99.82%	100.0%	99.82%	99.91%
性别(SEX)	78	0	1	98.73%	100.0%	98.73%	99.36%
街道(STREET)	1368	0	19	98.63%	100.0%	98.63%	99.31%
税号(TAXNUM)	345	0	12	96.64%	100.0%	96.64%	98.29%
电子邮件(EMAIL)	2606	0	2	99.92%	100.0%	99.92%	99.96%
社保号码(SOCIALNUM)	411	0	11	97.39%	100.0%	97.39%	98.68%
邮政编码(ZIPCODE)	406	0	20	95.31%	100.0%	95.31%	97.60%