🚀 GLiNER PII模型卡
GLiNER是一个命名实体识别(NER)模型,它借助双向变压器编码器(类似BERT),能够识别任何类型的实体。相较于传统的NER模型(局限于预定义实体)和大型语言模型(LLMs,虽灵活但在资源受限场景下成本高、规模大),它提供了一个实用的替代方案。
该模型是通过在urchade/synthetic-pii-ner-mistral-v1
数据集上微调urchade/gliner_multi-v2.1
而训练得到的。此模型能够识别各种类型的个人身份信息(PII),包括但不限于以下实体类型:person
(个人)、organization
(组织)、phone number
(电话号码)、address
(地址)、passport number
(护照号码)、email
(电子邮件)、credit card number
(信用卡号码)、social security number
(社会安全号码)、health insurance id number
(健康保险ID号码)、date of birth
(出生日期)、mobile phone number
(手机号码)、bank account number
(银行账号)、medication
(药物)、cpf
(巴西个人税号)、driver's license number
(驾照号码)、tax identification number
(税务识别号码)、medical condition
(医疗状况)、identity card number
(身份证号码)、national id number
(国家身份证号码)、ip address
(IP地址)、email address
(电子邮件地址)、iban
(国际银行账号)、credit card expiration date
(信用卡到期日期)、username
(用户名)、health insurance number
(健康保险号码)、registration number
(注册号码)、student id number
(学生ID号码)、insurance number
(保险号码)、flight number
(航班号码)、landline phone number
(固定电话号码)、blood type
(血型)、cvv
(信用卡验证码)、reservation number
(预订号码)、digital signature
(数字签名)、social media handle
(社交媒体账号)、license plate number
(车牌号码)、cnpj
(巴西公司税号)、postal code
(邮政编码)、passport_number
(护照号码)、serial number
(序列号)、vehicle registration number
(车辆注册号码)、credit card brand
(信用卡品牌)、fax number
(传真号码)、visa number
(签证号码)、insurance company
(保险公司)、identity document number
(身份文件号码)、transaction number
(交易号码)、national health insurance number
(国家健康保险号码)、cvc
(信用卡验证码)、birth certificate number
(出生证明号码)、train ticket number
(火车票号码)、passport expiration date
(护照到期日期)和social_security_number
(社会安全号码)。
🚀 快速开始
模型调用示例
from gliner import GLiNER
model = GLiNER.from_pretrained("urchade/gliner_multi_pii-v1")
text = """
Harilala Rasoanaivo, un homme d'affaires local d'Antananarivo, a enregistré une nouvelle société nommée "Rasoanaivo Enterprises" au Lot II M 92 Antohomadinika. Son numéro est le +261 32 22 345 67, et son adresse électronique est harilala.rasoanaivo@telma.mg. Il a fourni son numéro de sécu 501-02-1234 pour l'enregistrement.
"""
labels = ["work", "booking number", "personally identifiable information", "driver licence", "person", "book", "full address", "company", "actor", "character", "email", "passport number", "Social Security Number", "phone number"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
运行结果
Harilala Rasoanaivo => person
Rasoanaivo Enterprises => company
Lot II M 92 Antohomadinika => full address
+261 32 22 345 67 => phone number
harilala.rasoanaivo@telma.mg => email
501-02-1234 => Social Security Number
📚 详细文档
相关链接
📄 许可证
本项目采用Apache-2.0许可证。
🔍 信息表格
属性 |
详情 |
模型类型 |
命名实体识别(NER)模型 |
训练数据 |
urchade/synthetic-pii-ner-mistral-v1 |
支持语言 |
英语、法语、德语、西班牙语、葡萄牙语、意大利语 |
库名称 |
gliner |
任务类型 |
标记分类 |