🚀 Italian_NER_XXL_v2
この最先端のイタリア語テキスト用固有表現認識モデルの第2世代へようこそ。前作の成功を踏まえ、Italian_NER_XXL_v2は、精度87.5% と F1スコア89.2% を達成し、前モデルから8パーセンテージポイント以上の向上を実現しました。
🚀 クイックスタート
モデルの概要
このモデルは、イタリア語テキストの固有表現認識に特化した第2世代の最先端モデルです。前作の成功を受けて開発され、精度とF1スコアが大幅に向上しています。
キーな改良点
- 精度の向上: 79%から87.5%へ
- 文脈理解の改善: 複雑な文でのエンティティ認識が向上
- 誤検出の削減: 機密情報の識別がより正確
- 学習データの拡充: より多様なイタリア語コーパスで学習
市場におけるリーダーシップ
Italian_NER_XXL_v2は、イタリアで唯一、52 種類の異なるエンティティカテゴリを識別できるモデルです。この独自性により、イタリアのNLP分野で独占的な地位を維持しています。
認識されるカテゴリ
このモデルは、複数のドメインにまたがる広範なエンティティを識別します。
個人情報
- NOME: 人名の名
- COGNOME: 人名の姓
- DATA_NASCITA: 生年月日
- DATA_MORTE: 死亡日
- ETA: 年齢
- CODICE_FISCALE: イタリアの税コード
- PROFESSIONE: 職業
- STATO_CIVILE: 婚姻状況
連絡先情報
- INDIRIZZO: 住所
- NUMERO_TELEFONO: 電話番号
- EMAIL: メールアドレス
- CODICE_POSTALE: 郵便番号
金融情報
- VALUTA: 通貨
- IMPORTO: 金額
- NUMERO_CARTA: クレジット/デビットカード番号
- CVV: カードセキュリティコード
- NUMERO_CONTO: 銀行口座番号
- IBAN: 国際銀行口座番号
- BIC: 銀行識別コード
- P_IVA: VAT番号
- TASSO_MUTUO: 住宅ローン金利
- NUM_ASSEGNO_BANCARIO: 銀行小切手番号
- BANCA: 銀行名
法的エンティティ
- RAGIONE_SOCIALE: 会社名
- TRIBUNALE: 裁判所識別子
- LEGGE: 法律参照
- N_SENTENZA: 判決番号
- N_LICENZA: ライセンス番号
- AVV_NOTAIO: 弁護士または公証人参照
- REGIME_PATRIMONIALE: 財産制度
医療情報
- CARTELLA_CLINICA: 医療記録
- MALATTIA: 病名または医療状態
- MEDICINA: 薬または治療法
- STORIA_CLINICA: 病歴
- STRENGTH: 薬の強度
- FREQUENZA: 治療頻度
- DURATION: 治療期間
- DOSAGGIO: 薬の服用量
- FORM: 薬の剤形(例: 錠剤)
技術情報
- IP: IPアドレス
- IPV6_1: IPv6アドレス
- MAC: MACアドレス
- USER_AGENT: ブラウザのユーザーエージェント
- IMEI: 携帯端末識別子
地理および時間情報
- STATO: 国名
- LUOGO: 地理的な場所
- ORARIO: 特定の時間
- DATA: 日付
文書および車両情報
- NUMERO_DOCUMENTO: 文書番号
- TARGA_VEICOLO: 車両登録番号
- FOGLIO: 文書のページ参照
- PARTICELLA: 土地登記番号
- MAPPALE: 土地登記地図参照
- SUBALTERNO: 土地登記の下位参照
Webおよびセキュリティ
- URL: Webアドレス
- PASSWORD: パスワード
- PIN: 個人識別番号
- BRAND: ブランドまたは商標
実装
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
import torch
tokenizer = AutoTokenizer.from_pretrained("DeepMount00/Italian_NER_XXL_v2")
model = AutoModelForTokenClassification.from_pretrained("DeepMount00/Italian_NER_XXL_v2")
nlp = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
example = """Il commendatore Gianluigi Alberico De Laurentis-Ponti, con residenza legale in Corso Imperatrice 67,
Torino, avente codice fiscale DLNGGL60B01L219P, è amministratore delegato della "De Laurentis Advanced Engineering
Group S.p.A.", che si trova in Piazza Affari 32, Milano (MI); con una partita IVA di 09876543210, la società è stata
recentemente incaricata di sviluppare una nuova linea di componenti aerospaziali per il progetto internazionale
di esplorazione di Marte."""
ner_results = nlp(example)
for entity in ner_results:
print(f"{entity['entity_group']}: {entity['word']} (confidence: {entity['score']:.4f})")
使用例
- プライバシーコンプライアンス: GDPRデータマッピングとPII検出
- 文書匿名化: 機密情報の自動編集
- 法的文書分析: 契約書や法的テキストからの重要エンティティの抽出
- 金融監視: コンプライアンスと不正防止のための金融エンティティの検出
- 医療記録処理: 臨床ノートやレポートからの構造化抽出
将来の開発
- 四半期ごとの精度向上アップデート
- ユーザーフィードバックに基づく新しいエンティティタイプの追加
- 特定のアプリケーション向けのドメイン固有のバリアントの開発
- 文脈的なエンティティリンキング機能の統合
貢献と連絡先
このモデルの改善には、あなたのフィードバックが不可欠です。貢献したい場合、提案がある場合、またはカスタムNERソリューションが必要な場合は、以下の連絡先までご連絡ください。
Michele Montebovi
Email: montebovi.michele@gmail.com
イタリアのNLPコミュニティからの協力を歓迎し、このツールのさらなる改善と産業横断的なアプリケーションの拡大を目指します。
引用
このモデルを研究やアプリケーションで使用する場合は、以下のように引用してください。
@misc{montebovi2025italiannerxxl,
author = {Montebovi, Michele},
title = {Italian\_NER\_XXL\_v2: A Comprehensive Named Entity Recognition Model for Italian},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/DeepMount00/Italian_NER_XXL_v2}}
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。