llama-ai4privacy-multilingual-anonymiser-openpiiオープンソースモデル - 8言語のPII情報識別とマスキングに対応

ホーム

Llama Ai4privacy Multilingual Anonymiser Openpii

ai4privacyによって開発

ModernBERTアーキテクチャに基づく多言語PII匿名化モデル、8言語の個人識別情報認識とマスキングをサポート

シーケンスラベリング

Transformers

複数言語対応オープンソースライセンス:MIT #多言語PII認識 #高精度匿名化 #個人データマスキング

ダウンロード数 127

リリース時間 : 3/23/2025

モデル概要

このモデルはテキスト中の個人識別情報(PII)の認識と匿名化に特化しており、複数のPIIタイプと言語をサポート、プライバシー保護シナリオに適応

モデル特徴

多言語サポート

8言語のPII認識をサポート、欧州とアジアの主要言語を含む

高精度認識

テストセットで全体F1スコア98.59%、大半のPIIタイプ認識精度99%以上

広範なPIIカバレッジ

21種類のPIIラベル認識をサポート、氏名、ID番号、連絡先など多様な機密情報を含む

ゼロ偽陽性

大半のPIIタイプで偽陽性率0、非PIIコンテンツが誤ってマークされないことを保証

モデル能力

テキスト中のPII認識

多言語PII検出

機密情報匿名化

プライバシーデータ保護

使用事例

データプライバシー保護

ユーザーデータ匿名化処理

保存や共有前にユーザーデータ中のPII情報を自動認識・匿名化

データ漏洩リスクを効果的に低減、GDPRなどのプライバシー規制に準拠

ログマスキング

システムログ中の機密情報を自動マスキング処理

ログ中のユーザープライバシーを保護しつつ分析価値を保持

コンプライアンスチェック

プライバシーコンプライアンス監査

文書やデータベース中の潜在的なPII情報を自動検出

組織がプライバシーコンプライアンスリスクポイントを識別するのを支援

🚀 多言語PIIアノマイザー

このモデルは、多言語のPII（個人情報）を匿名化するためのモデルで、高精度でのPII検出が可能です。

📦 基本情報

項目	詳細
モデルタイプ	answerdotai/ModernBERT-base
ライブラリ名	transformers
タグ	PII
データセット	ai4privacy/open-pii-masking-500k-ai4privacy
言語	fr, en, de, te, hi, it, es, nl
ライセンス	MIT

📚 評価指標

以下の表は、各PIIラベルごとの詳細な評価結果をまとめたものです。

ラベル	TP	FP	FN	正解率	適合率	再現率	F1スコア
SURNAME	3722	0	28	99.25%	100.0%	99.25%	99.63%
O (Non-PII)	0	400	0	99.30%	n/a	n/a	n/a
TIME	1936	0	0	100.0%	100.0%	100.0%	100.0%
DRIVERLICENSENUM	505	0	2	99.61%	100.0%	99.61%	99.80%
PASSPORTNUM	564	0	2	99.65%	100.0%	99.65%	99.82%
GIVENNAME	7548	0	172	97.77%	100.0%	97.77%	98.87%
TELEPHONENUM	3641	0	0	100.0%	100.0%	100.0%	100.0%
BUILDINGNUM	407	0	19	95.54%	100.0%	95.54%	97.72%
AGE	168	0	1	99.41%	100.0%	99.41%	99.70%
DATE	2335	0	0	100.0%	100.0%	100.0%	100.0%
CITY	1672	0	130	92.79%	100.0%	92.79%	96.26%
TITLE	349	0	35	90.89%	100.0%	90.89%	95.23%
IDCARDNUM	1998	0	22	98.91%	100.0%	98.91%	99.45%
GENDER	121	0	0	100.0%	100.0%	100.0%	100.0%
CREDITCARDNUMBER	557	0	1	99.82%	100.0%	99.82%	99.91%
SEX	78	0	1	98.73%	100.0%	98.73%	99.36%
STREET	1368	0	19	98.63%	100.0%	98.63%	99.31%
TAXNUM	345	0	12	96.64%	100.0%	96.64%	98.29%
EMAIL	2606	0	2	99.92%	100.0%	99.92%	99.96%
SOCIALNUM	411	0	11	97.39%	100.0%	97.39%	98.68%
ZIPCODE	406	0	20	95.31%	100.0%	95.31%	97.60%

全体評価

正解率: 99.01%
適合率: 98.72%
再現率: 98.47%
F1スコア: 98.59%
全真陽性 (TP): 30,737
全偽陽性 (FP): 400
全偽陰性 (FN): 477

マクロ平均指標

正解率: 98.35%
適合率: 95.24%
再現率: 93.35%
F1スコア: 94.29%

🔧 モデルの挙動と制限事項

評価の焦点:
上記の指標は、open-pii-masking-500k-ai4privacy データセットのテスト分割におけるパフォーマンスを反映しています。実際のパフォーマンスは異なる場合があり、追加の対策が必要です。サポートが必要な場合は、support@ai4privacy.com までお問い合わせください。