🚀 意大利语命名实体识别模型 Italian_NER_XXL_v2
Italian_NER_XXL_v2 是一款用于意大利语文本的命名实体识别模型。它在性能上较前作有显著提升,能够识别多达 52 种不同的实体类别,广泛应用于隐私合规、文档匿名化、法律文档分析等多个领域。
🚀 快速开始
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
import torch
tokenizer = AutoTokenizer.from_pretrained("DeepMount00/Italian_NER_XXL_v2")
model = AutoModelForTokenClassification.from_pretrained("DeepMount00/Italian_NER_XXL_v2")
nlp = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
example = """Il commendatore Gianluigi Alberico De Laurentis-Ponti, con residenza legale in Corso Imperatrice 67,
Torino, avente codice fiscale DLNGGL60B01L219P, è amministratore delegato della "De Laurentis Advanced Engineering
Group S.p.A.", che si trova in Piazza Affari 32, Milano (MI); con una partita IVA di 09876543210, la società è stata
recentemente incaricata di sviluppare una nuova linea di componenti aerospaziali per il progetto internazionale
di esplorazione di Marte."""
ner_results = nlp(example)
for entity in ner_results:
print(f"{entity['entity_group']}: {entity['word']} (confidence: {entity['score']:.4f})")
✨ 主要特性
- 精度提升:准确率从 79% 提升至 87.5%。
- 上下文理解增强:在复杂句子中对实体的识别能力得到改善。
- 误报率降低:对敏感信息的识别更加精确。
- 训练数据扩展:在更多样化的意大利语文本语料库上进行训练。
📚 详细文档
市场领先地位
Italian_NER_XXL_v2 是意大利唯一能够识别多达 52 种不同实体类别的模型,在意大利自然语言处理领域保持着独特的地位。这种无与伦比的实体识别广度,使其成为隐私、法律和金融应用的首选模型。
识别类别
该模型能够识别多个领域的广泛实体:
个人信息
- NOME:人名
- COGNOME:姓氏
- DATA_NASCITA:出生日期
- DATA_MORTE:死亡日期
- ETA:年龄
- CODICE_FISCALE:意大利税号
- PROFESSIONE:职业
- STATO_CIVILE:婚姻状况
联系信息
- INDIRIZZO:地址
- NUMERO_TELEFONO:电话号码
- EMAIL:电子邮件地址
- CODICE_POSTALE:邮政编码
财务信息
- VALUTA:货币
- IMPORTO:金额
- NUMERO_CARTA:信用卡/借记卡号码
- CVV:卡安全码
- NUMERO_CONTO:银行账户号码
- IBAN:国际银行账户号码
- BIC:银行识别码
- P_IVA:增值税号
- TASSO_MUTUO:抵押贷款利率
- NUM_ASSEGNO_BANCARIO:银行支票号码
- BANCA:银行名称
法律实体
- RAGIONE_SOCIALE:公司法定名称
- TRIBUNALE:法院标识
- LEGGE:法律参考
- N_SENTENZA:判决书编号
- N_LICENZA:许可证编号
- AVV_NOTAIO:律师或公证人参考
- REGIME_PATRIMONIALE:财产制度
医疗信息
- CARTELLA_CLINICA:病历
- MALATTIA:疾病或医疗状况
- MEDICINA:药物或医疗治疗
- STORIA_CLINICA:临床病史
- STRENGTH:药物强度
- FREQUENZA:治疗频率
- DURATION:治疗持续时间
- DOSAGGIO:药物剂量
- FORM:药物剂型(如片剂)
技术信息
- IP:IP 地址
- IPV6_1:IPv6 地址
- MAC:MAC 地址
- USER_AGENT:浏览器用户代理
- IMEI:移动设备标识符
地理和时间数据
- STATO:国家
- LUOGO:地理位置
- ORARIO:具体时间
- DATA:通用日期
文档和车辆信息
- NUMERO_DOCUMENTO:文件编号
- TARGA_VEICOLO:车辆牌照
- FOGLIO:文件页参考
- PARTICELLA:土地登记粒子
- MAPPALE:土地登记地图参考
- SUBALTERNO:土地登记从属参考
网络和安全
- URL:网址
- PASSWORD:密码
- PIN:个人识别码
- BRAND:商业品牌或商标
使用场景
- 隐私合规:进行 GDPR 数据映射和个人身份信息检测。
- 文档匿名化:自动编辑敏感信息。
- 法律文档分析:从合同和法律文本中提取关键实体。
- 金融监控:检测金融实体以确保合规和预防欺诈。
- 医疗记录处理:从临床笔记和报告中进行结构化提取。
未来发展
- 每季度更新以进一步提高精度。
- 根据用户反馈扩展新的实体类型。
- 开发特定领域的变体以用于专业应用。
- 集成上下文实体链接功能。
📄 许可证
本项目采用 Apache-2.0 许可证。
🔗 贡献与联系
如果您有兴趣为该模型做出贡献、提出建议或需要定制的命名实体识别解决方案,请联系:
Michele Montebovi
邮箱:montebovi.michele@gmail.com
我们欢迎意大利自然语言处理社区的合作,以进一步增强这个工具并扩展其在各行业的应用。
📖 引用
如果您在研究或应用中使用了此模型,请引用:
@misc{montebovi2025italiannerxxl,
author = {Montebovi, Michele},
title = {Italian\_NER\_XXL\_v2: A Comprehensive Named Entity Recognition Model for Italian},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/DeepMount00/Italian_NER_XXL_v2}}
}