🐟 PII-RANHA: プライバシー保護トークン分類モデル
PII-RANHAは、Answer.AIのModernBERT-baseをベースにしたファインチューニング済みのトークン分類モデルです。このモデルは、テキストデータ内の個人情報(PII)を識別および分類するように設計されています。ai4privacy/pii-masking-400k
データセットで学習され、口座番号、クレジットカード番号、メールアドレスなど、17種類の異なるPIIカテゴリを検出できます。
このモデルは、データ匿名化、データ編集、またはデータ保護規制への準拠などのプライバシー保護アプリケーションを目的としています。
📚 モデル詳細
モデルアーキテクチャ
属性 |
详情 |
モデルタイプ |
トークン分類モデル |
ベースモデル |
answerdotai/ModernBERT-base |
ラベル数 |
18(17のPIIカテゴリ + 非PIIトークンの"O") |
🚀 クイックスタート
📦 インストール
モデルを使用するには、transformers
とdatasets
ライブラリがインストールされていることを確認してください。
pip install transformers datasets
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name = "scampion/piiranha"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
pii_pipeline = pipeline("token-classification", model=model, tokenizer=tokenizer)
text = "My email is john.doe@example.com and my phone number is 555-123-4567."
results = pii_pipeline(text)
for entity in results:
print(f"Entity: {entity['word']}, Label: {entity['entity']}, Score: {entity['score']:.4f}")
Entity: Ġj, Label: I-ACCOUNTNUM, Score: 0.6445
Entity: ohn, Label: I-ACCOUNTNUM, Score: 0.3657
Entity: ., Label: I-USERNAME, Score: 0.5871
Entity: do, Label: I-USERNAME, Score: 0.5350
Entity: Ġ555, Label: I-ACCOUNTNUM, Score: 0.8399
Entity: -, Label: I-SOCIALNUM, Score: 0.5948
Entity: 123, Label: I-SOCIALNUM, Score: 0.6309
Entity: -, Label: I-SOCIALNUM, Score: 0.6151
Entity: 45, Label: I-SOCIALNUM, Score: 0.3742
Entity: 67, Label: I-TELEPHONENUM, Score: 0.3440
🔧 技術詳細
データセット
このモデルは、40万件のPIIトークンが注釈付けされたテキストデータを含むai4privacy/pii-masking-400k
データセットで学習されました。
学習設定
- バッチサイズ: 32
- 学習率: 5e-5
- エポック数: 4
- オプティマイザー: AdamW
- ウェイトディケイ: 0.01
- スケジューラー: 線形学習率スケジューラー
評価指標
このモデルは、以下の指標を使用して評価されました。
エポック |
学習損失 |
検証損失 |
適合率 |
再現率 |
F1スコア |
正解率 |
1 |
0.017100 |
0.017944 |
0.897562 |
0.905612 |
0.901569 |
0.993549 |
2 |
0.011300 |
0.014114 |
0.915451 |
0.923319 |
0.919368 |
0.994782 |
3 |
0.005000 |
0.015703 |
0.919432 |
0.928394 |
0.923892 |
0.995136 |
4 |
0.001000 |
0.022899 |
0.921234 |
0.927212 |
0.924213 |
0.995267 |
📄 ライセンス
このモデルは、Commons Clause Apache License 2.0の下でライセンスされています。詳細については、Commons Clauseのウェブサイトを参照してください。別のライセンスについては、著者にお問い合わせください。
著者情報
- 氏名: Sébastien Campion
- メール: sebastien.campion@foss4.eu
- 日付: 2025-01-30
- バージョン: 0.1
引用
このモデルをあなたの研究で使用する場合は、次のように引用してください。
@misc{piiranha2025,
author = {Sébastien Campion},
title = {PII-RANHA: A Privacy-Preserving Token Classification Model},
year = {2025},
version = {0.1},
url = {https://huggingface.co/sebastien-campion/piiranha},
}
⚠️ 重要提示
このモデルは、特定のユースケースに対するパフォーマンスや適合性の保証なしに「現状のまま」提供されます。導入前に、必ず特定のコンテキストでモデルのパフォーマンスを評価してください。