🚀 Piiranha-v1: 個人情報を保護しましょう!
Piiranhaは、6か国語にわたる17種類の個人情報(PII)を検出するように訓練されたモデルです。このモデルは、PIIトークンの98.27%を検出し、全体的な分類精度は99.44%に達しています。特に、パスワード、メールアドレス(100%)、電話番号、ユーザー名の検出に高い精度を誇ります。
個人情報と非個人情報の分類タスクにおける性能
- 精度(Precision): 98.48%(PIIと分類されたトークンの98.48%が実際にPIIです)
- 再現率(Recall): 98.27%(PIIトークンの98.27%を正しく識別します)
- 特異度(Specificity): 99.84%(非PIIトークンの99.84%を正しく識別します)
Piiranhaは、Akash Networkから提供されたH100 GPUを使用して訓練されました。
🚀 クイックスタート
Piiranhaは、テキストから個人情報を検出するために使用できます。ただし、自己責任での使用となり、モデルの誤った予測については一切責任を負いません。
✨ 主な機能
- 多言語対応:英語、スペイン語、フランス語、ドイツ語、イタリア語、オランダ語の6か国語に対応しています。
- 多種類のPII検出:口座番号、建物番号、都市名、クレジットカード番号、生年月日、運転免許証番号、メールアドレス、名前、姓、IDカード番号、パスワード、社会保障番号、住所、税務番号、電話番号、ユーザー名、郵便番号など17種類のPIIを検出できます。
- 高精度:PIIトークンの98.27%を検出し、全体的な分類精度は99.44%に達しています。
📚 ドキュメント
モデルの説明
Piiranhaは、microsoft/mdeberta-v3-baseをファインチューニングしたモデルです。コンテキストの長さは256 Debertaトークンです。テキストがこれより長い場合は、分割して使用してください。
各PIIタイプ別の性能
報告されている性能指標は、全体的な精度99.44%よりも低くなっています。これは、クラスの不均衡(ほとんどのトークンが非PIIである)によるものです。ただし、モデルはPII検出の意図から、以下の結果よりも有用です。モデルは時々、あるPIIタイプを別のPIIタイプと誤分類することがありますが、最終的にはトークンをPIIとして認識します。
Entity |
精度 |
再現率 |
F1値 |
サポート |
ACCOUNTNUM |
0.84 |
0.87 |
0.85 |
3575 |
BUILDINGNUM |
0.92 |
0.90 |
0.91 |
3252 |
CITY |
0.95 |
0.97 |
0.96 |
7270 |
CREDITCARDNUMBER |
0.94 |
0.96 |
0.95 |
2308 |
DATEOFBIRTH |
0.93 |
0.85 |
0.89 |
3389 |
DRIVERLICENSENUM |
0.96 |
0.96 |
0.96 |
2244 |
EMAIL |
1.00 |
1.00 |
1.00 |
6892 |
GIVENNAME |
0.87 |
0.93 |
0.90 |
12150 |
IDCARDNUM |
0.89 |
0.94 |
0.91 |
3700 |
PASSWORD |
0.98 |
0.98 |
0.98 |
2387 |
SOCIALNUM |
0.93 |
0.94 |
0.93 |
2709 |
STREET |
0.97 |
0.95 |
0.96 |
3331 |
SURNAME |
0.89 |
0.78 |
0.83 |
8267 |
TAXNUM |
0.97 |
0.89 |
0.93 |
2322 |
TELEPHONENUM |
0.99 |
1.00 |
0.99 |
5039 |
USERNAME |
0.98 |
0.98 |
0.98 |
7680 |
ZIPCODE |
0.94 |
0.97 |
0.95 |
3191 |
マイクロ平均 |
0.93 |
0.93 |
0.93 |
79706 |
マクロ平均 |
0.94 |
0.93 |
0.93 |
79706 |
加重平均 |
0.93 |
0.93 |
0.93 |
79706 |
訓練と評価データ
Piiranhaは、ai4privacy/pii-masking-400kデータセットを使用して訓練されました。
訓練手順
訓練ハイパーパラメータ
訓練時には、以下のハイパーパラメータが使用されました。
- 学習率(learning_rate): 5e-05
- 訓練バッチサイズ(train_batch_size): 128
- 評価バッチサイズ(eval_batch_size): 128
- シード(seed): 42
- オプティマイザ(optimizer): Adam(ベータ=(0.9,0.999)、イプシロン=1e-08)
- 学習率スケジューラのタイプ(lr_scheduler_type): 線形
- 学習率スケジューラのウォームアップ比率(lr_scheduler_warmup_ratio): 0.05
- エポック数(num_epochs): 5
- 混合精度訓練(mixed_precision_training): Native AMP
訓練結果
訓練損失 |
エポック |
ステップ |
検証損失 |
精度 |
再現率 |
F1値 |
正解率 |
0.2984 |
0.0983 |
250 |
0.1005 |
0.5446 |
0.6111 |
0.5759 |
0.9702 |
0.0568 |
0.1965 |
500 |
0.0464 |
0.7895 |
0.8459 |
0.8167 |
0.9849 |
0.0441 |
0.2948 |
750 |
0.0400 |
0.8346 |
0.8669 |
0.8504 |
0.9869 |
0.0368 |
0.3931 |
1000 |
0.0320 |
0.8531 |
0.8784 |
0.8656 |
0.9891 |
0.0323 |
0.4914 |
1250 |
0.0293 |
0.8779 |
0.8889 |
0.8834 |
0.9903 |
0.0287 |
0.5896 |
1500 |
0.0269 |
0.8919 |
0.8836 |
0.8877 |
0.9907 |
0.0282 |
0.6879 |
1750 |
0.0276 |
0.8724 |
0.9012 |
0.8866 |
0.9903 |
0.0268 |
0.7862 |
2000 |
0.0254 |
0.8890 |
0.9041 |
0.8965 |
0.9914 |
0.0264 |
0.8844 |
2250 |
0.0236 |
0.8886 |
0.9040 |
0.8962 |
0.9915 |
0.0243 |
0.9827 |
2500 |
0.0232 |
0.8998 |
0.9033 |
0.9015 |
0.9917 |
0.0213 |
1.0810 |
2750 |
0.0237 |
0.9115 |
0.9040 |
0.9077 |
0.9923 |
0.0213 |
1.1792 |
3000 |
0.0222 |
0.9123 |
0.9143 |
0.9133 |
0.9925 |
0.0217 |
1.2775 |
3250 |
0.0222 |
0.8999 |
0.9169 |
0.9083 |
0.9924 |
0.0209 |
1.3758 |
3500 |
0.0212 |
0.9111 |
0.9133 |
0.9122 |
0.9928 |
0.0204 |
1.4741 |
3750 |
0.0206 |
0.9054 |
0.9203 |
0.9128 |
0.9926 |
0.0183 |
1.5723 |
4000 |
0.0212 |
0.9126 |
0.9160 |
0.9143 |
0.9927 |
0.0191 |
1.6706 |
4250 |
0.0192 |
0.9122 |
0.9192 |
0.9157 |
0.9929 |
0.0185 |
1.7689 |
4500 |
0.0195 |
0.9200 |
0.9191 |
0.9196 |
0.9932 |
0.018 |
1.8671 |
4750 |
0.0188 |
0.9136 |
0.9215 |
0.9176 |
0.9933 |
0.0183 |
1.9654 |
5000 |
0.0191 |
0.9179 |
0.9212 |
0.9196 |
0.9934 |
0.0147 |
2.0637 |
5250 |
0.0188 |
0.9246 |
0.9242 |
0.9244 |
0.9937 |
0.0149 |
2.1619 |
5500 |
0.0184 |
0.9188 |
0.9254 |
0.9221 |
0.9937 |
0.0143 |
2.2602 |
5750 |
0.0193 |
0.9187 |
0.9224 |
0.9205 |
0.9932 |
0.014 |
2.3585 |
6000 |
0.0190 |
0.9246 |
0.9280 |
0.9263 |
0.9936 |
0.0146 |
2.4568 |
6250 |
0.0190 |
0.9225 |
0.9277 |
0.9251 |
0.9936 |
0.0148 |
2.5550 |
6500 |
0.0175 |
0.9297 |
0.9306 |
0.9301 |
0.9942 |
0.0136 |
2.6533 |
6750 |
0.0172 |
0.9191 |
0.9329 |
0.9259 |
0.9938 |
0.0137 |
2.7516 |
7000 |
0.0166 |
0.9299 |
0.9312 |
0.9306 |
0.9942 |
0.014 |
2.8498 |
7250 |
0.0167 |
0.9285 |
0.9313 |
0.9299 |
0.9942 |
0.0128 |
2.9481 |
7500 |
0.0166 |
0.9271 |
0.9326 |
0.9298 |
0.9943 |
0.0113 |
3.0464 |
7750 |
0.0171 |
0.9286 |
0.9347 |
0.9316 |
0.9946 |
0.0103 |
3.1447 |
8000 |
0.0172 |
0.9284 |
0.9383 |
0.9334 |
0.9945 |
0.0104 |
3.2429 |
8250 |
0.0169 |
0.9312 |
0.9406 |
0.9359 |
0.9947 |
0.0094 |
3.3412 |
8500 |
0.0166 |
0.9368 |
0.9359 |
0.9364 |
0.9948 |
0.01 |
3.4395 |
8750 |
0.0166 |
0.9289 |
0.9387 |
0.9337 |
0.9944 |
0.0099 |
3.5377 |
9000 |
0.0162 |
0.9335 |
0.9332 |
0.9334 |
0.9947 |
0.0099 |
3.6360 |
9250 |
0.0160 |
0.9321 |
0.9380 |
0.9350 |
0.9947 |
0.01 |
3.7343 |
9500 |
0.0168 |
0.9306 |
0.9389 |
0.9347 |
0.9947 |
0.0101 |
3.8325 |
9750 |
0.0159 |
0.9339 |
0.9350 |
0.9344 |
0.9947 |
連絡先
william (at) integrinet [dot] org
フレームワークバージョン
- Transformers 4.44.2
- Pytorch 2.4.1+cu121
- Datasets 3.0.0
- Tokenizers 0.19.1
📄 ライセンス
このモデルは、cc-by-nc-nd-4.0ライセンスの下で提供されています。