🚀 意大利語命名實體識別模型 Italian_NER_XXL_v2
Italian_NER_XXL_v2 是一款用於意大利語文本的命名實體識別模型。它在性能上較前作有顯著提升,能夠識別多達 52 種不同的實體類別,廣泛應用於隱私合規、文檔匿名化、法律文檔分析等多個領域。
🚀 快速開始
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
import torch
tokenizer = AutoTokenizer.from_pretrained("DeepMount00/Italian_NER_XXL_v2")
model = AutoModelForTokenClassification.from_pretrained("DeepMount00/Italian_NER_XXL_v2")
nlp = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
example = """Il commendatore Gianluigi Alberico De Laurentis-Ponti, con residenza legale in Corso Imperatrice 67,
Torino, avente codice fiscale DLNGGL60B01L219P, è amministratore delegato della "De Laurentis Advanced Engineering
Group S.p.A.", che si trova in Piazza Affari 32, Milano (MI); con una partita IVA di 09876543210, la società è stata
recentemente incaricata di sviluppare una nuova linea di componenti aerospaziali per il progetto internazionale
di esplorazione di Marte."""
ner_results = nlp(example)
for entity in ner_results:
print(f"{entity['entity_group']}: {entity['word']} (confidence: {entity['score']:.4f})")
✨ 主要特性
- 精度提升:準確率從 79% 提升至 87.5%。
- 上下文理解增強:在複雜句子中對實體的識別能力得到改善。
- 誤報率降低:對敏感信息的識別更加精確。
- 訓練數據擴展:在更多樣化的意大利語文本語料庫上進行訓練。
📚 詳細文檔
市場領先地位
Italian_NER_XXL_v2 是意大利唯一能夠識別多達 52 種不同實體類別的模型,在意大利自然語言處理領域保持著獨特的地位。這種無與倫比的實體識別廣度,使其成為隱私、法律和金融應用的首選模型。
識別類別
該模型能夠識別多個領域的廣泛實體:
個人信息
- NOME:人名
- COGNOME:姓氏
- DATA_NASCITA:出生日期
- DATA_MORTE:死亡日期
- ETA:年齡
- CODICE_FISCALE:意大利稅號
- PROFESSIONE:職業
- STATO_CIVILE:婚姻狀況
聯繫信息
- INDIRIZZO:地址
- NUMERO_TELEFONO:電話號碼
- EMAIL:電子郵件地址
- CODICE_POSTALE:郵政編碼
財務信息
- VALUTA:貨幣
- IMPORTO:金額
- NUMERO_CARTA:信用卡/借記卡號碼
- CVV:卡安全碼
- NUMERO_CONTO:銀行賬戶號碼
- IBAN:國際銀行賬戶號碼
- BIC:銀行識別碼
- P_IVA:增值稅號
- TASSO_MUTUO:抵押貸款利率
- NUM_ASSEGNO_BANCARIO:銀行支票號碼
- BANCA:銀行名稱
法律實體
- RAGIONE_SOCIALE:公司法定名稱
- TRIBUNALE:法院標識
- LEGGE:法律參考
- N_SENTENZA:判決書編號
- N_LICENZA:許可證編號
- AVV_NOTAIO:律師或公證人參考
- REGIME_PATRIMONIALE:財產製度
醫療信息
- CARTELLA_CLINICA:病歷
- MALATTIA:疾病或醫療狀況
- MEDICINA:藥物或醫療治療
- STORIA_CLINICA:臨床病史
- STRENGTH:藥物強度
- FREQUENZA:治療頻率
- DURATION:治療持續時間
- DOSAGGIO:藥物劑量
- FORM:藥物劑型(如片劑)
技術信息
- IP:IP 地址
- IPV6_1:IPv6 地址
- MAC:MAC 地址
- USER_AGENT:瀏覽器用戶代理
- IMEI:移動設備標識符
地理和時間數據
- STATO:國家
- LUOGO:地理位置
- ORARIO:具體時間
- DATA:通用日期
文檔和車輛信息
- NUMERO_DOCUMENTO:文件編號
- TARGA_VEICOLO:車輛牌照
- FOGLIO:文件頁參考
- PARTICELLA:土地登記粒子
- MAPPALE:土地登記地圖參考
- SUBALTERNO:土地登記從屬參考
網絡和安全
- URL:網址
- PASSWORD:密碼
- PIN:個人識別碼
- BRAND:商業品牌或商標
使用場景
- 隱私合規:進行 GDPR 數據映射和個人身份信息檢測。
- 文檔匿名化:自動編輯敏感信息。
- 法律文檔分析:從合同和法律文本中提取關鍵實體。
- 金融監控:檢測金融實體以確保合規和預防欺詐。
- 醫療記錄處理:從臨床筆記和報告中進行結構化提取。
未來發展
- 每季度更新以進一步提高精度。
- 根據用戶反饋擴展新的實體類型。
- 開發特定領域的變體以用於專業應用。
- 集成上下文實體鏈接功能。
📄 許可證
本項目採用 Apache-2.0 許可證。
🔗 貢獻與聯繫
如果您有興趣為該模型做出貢獻、提出建議或需要定製的命名實體識別解決方案,請聯繫:
Michele Montebovi
郵箱:montebovi.michele@gmail.com
我們歡迎意大利自然語言處理社區的合作,以進一步增強這個工具並擴展其在各行業的應用。
📖 引用
如果您在研究或應用中使用了此模型,請引用:
@misc{montebovi2025italiannerxxl,
author = {Montebovi, Michele},
title = {Italian\_NER\_XXL\_v2: A Comprehensive Named Entity Recognition Model for Italian},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/DeepMount00/Italian_NER_XXL_v2}}
}