llama-ai4privacy-english-anonymiser-openpiiオープンソースモデル - 英語テキストの個人情報匿名化を高精度に実現

Llama Ai4privacy English Anonymiser Openpii

ai4privacyによって開発

英語テキストの個人識別情報（PII）匿名化専用に設計されたモデルで、50万件の英語PIIデータセットでファインチューニングされ、総合F1スコアは98.82%を達成。

ダウンロード数 6,159

リリース時間 : 2/27/2025

モデル概要

このモデルは英語テキスト中の個人識別情報（PII）の識別と匿名化に使用され、20種類以上のPIIタイプ（氏名、ID番号、連絡先などの機微情報）の識別をサポートします。

高精度PII識別

総合F1スコア98.82%、パスポート番号や日付など一部のラベル識別精度は100%

広範なPIIタイプカバレッジ

20種類以上のPIIタイプ（ID番号、連絡先、住所などの機微情報）識別をサポート

法的コンプライアンス設計

データプライバシー保護シナリオ向けに開発され、個人情報処理の法的要件に準拠

個人識別情報識別

機微情報匿名化

テキスト匿名化処理

複数タイプPII分類

データプライバシー保護

ユーザーデータ匿名化

ユーザーが送信したフォームやログなどのテキストを自動的にPII匿名化

データ漏洩リスク低減、GDPRなどのプライバシー規制要件への準拠

企業データガバナンス

内部文書匿名化

企業文書内の従業員や顧客の機微情報を自動識別・マスキング

内部データを安全に共有する際の個人プライバシー保護

このモデルは、英語のテキストから個人情報（PII）を削除するように設計されています。open-pii-masking-500k-ai4privacy データセットの英語部分のみを使用して微調整されています。

以下の表は、各PIIラベルごとの詳細な評価結果をまとめたものです。

ラベル	TP	FP	FN	Accuracy	Precision	Recall	F1 Score
SURNAME	3724	0	26	99.31%	100.0%	99.31%	99.65%
O (Non-PII)	0	368	0	99.36%	n/a	n/a	n/a
TIME	1934	0	2	99.90%	100.0%	99.90%	99.95%
DRIVERLICENSENUM	505	0	2	99.61%	100.0%	99.61%	99.80%
PASSPORTNUM	566	0	0	100.0%	100.0%	100.0%	100.0%
GIVENNAME	7557	0	163	97.89%	100.0%	97.89%	98.93%
TELEPHONENUM	3637	0	4	99.89%	100.0%	99.89%	99.95%
BUILDINGNUM	418	0	8	98.12%	100.0%	98.12%	99.05%
AGE	164	0	5	97.04%	100.0%	97.04%	98.50%
DATE	2335	0	0	100.0%	100.0%	100.0%	100.0%
CITY	1717	0	85	95.28%	100.0%	95.28%	97.58%
TITLE	363	0	21	94.53%	100.0%	94.53%	97.19%
IDCARDNUM	2008	0	12	99.41%	100.0%	99.41%	99.70%
GENDER	120	0	1	99.17%	100.0%	99.17%	99.59%
CREDITCARDNUMBER	555	0	3	99.46%	100.0%	99.46%	99.73%
SEX	77	0	2	97.47%	100.0%	97.47%	98.72%
STREET	1379	0	8	99.42%	100.0%	99.42%	99.71%
TAXNUM	343	0	14	96.08%	100.0%	96.08%	98.00%
EMAIL	2607	0	1	99.96%	100.0%	99.96%	99.98%
SOCIALNUM	421	0	1	99.76%	100.0%	99.76%	99.88%
ZIPCODE	418	0	8	98.12%	100.0%	98.12%	99.05%

全体的な評価:

マクロ平均指標:

評価の焦点:
上記の指標は、open-pii-masking-500k-ai4privacy データセットのテストデータ分割に対する性能を反映しています。実際のパフォーマンスは異なる場合があり、追加の対策が必要です。ご不明な点は、support(at)ai4privacy.com までお問い合わせください。