distilbert_finetuned_ai4privacy_v2開源模型 - 精準檢測移除文本中敏感個人信息

首頁

Distilbert Finetuned Ai4privacy V2

由Isotonic開發

基於distilbert-base-uncased微調的PII(個人身份信息)識別模型，用於從文本中檢測和移除敏感信息

序列標註

Transformers

英語#PII識別 #隱私保護 #多類別實體識別

下載量 3,499

發布時間 : 11/20/2023

模型概述

該模型在全球最大的開源隱私數據集上微調，能夠識別54類敏感信息，適用於AI助手和LLM場景下的隱私保護

模型特點

廣泛的PII識別能力

支持識別54種敏感數據類型，包括金融信息、身份標識、聯繫方式等

高效輕量級模型

基於DistilBERT架構，在保持高準確率的同時減少計算資源需求

多場景適用性

訓練數據涵蓋229個討論主題和5種交互風格，適用於多種文本場景

模型能力

文本中的敏感信息檢測

個人身份信息識別

隱私數據分類

多類別實體識別

使用案例

隱私保護

AI聊天記錄脫敏

自動識別並屏蔽聊天記錄中的敏感信息

F1分數達0.9549

文檔隱私審查

掃描文檔中的個人身份信息以符合GDPR等隱私法規

電子郵件識別F1分數1.0

數據安全

日誌匿名化處理

自動移除系統日誌中的敏感數據

IP地址識別F1分數0.4349

🚀 distilbert_finetuned_ai4privacy_v2

本模型是基於distilbert-base-uncased在ai4privacy/pii-masking-200k數據集的英文子集上進行微調的版本。它能夠從文本中移除個人身份信息（PII），尤其適用於AI助手和大語言模型場景。

🌟 請作者喝咖啡是直接支持本項目的方式。

🚀 快速開始

GitHub實現：Ai4Privacy

✨ 主要特性

微調於大規模隱私數據集：該模型在全球最大的開源隱私數據集上進行了微調。
多場景PII移除：旨在從文本中移除個人身份信息（PII），尤其適用於AI助手和大語言模型。
豐富的PII類別：示例文本包含54種PII類別（敏感數據類型），涵蓋商業、教育、心理學和法律等領域的229個討論主題/用例，以及5種交互風格（如隨意對話、正式文檔、電子郵件等）。

📚 詳細文檔

模型描述

本模型在全球最大的開源隱私數據集上進行了微調。訓練該模型的目的是從文本中移除個人身份信息（PII），特別是在AI助手和大語言模型的應用場景中。示例文本包含54種PII類別（敏感數據類型），針對商業、教育、心理學和法律領域的229個討論主題/用例，以及5種交互風格（如隨意對話、正式文檔、電子郵件等）。具體研究可查看GitHub實現。

預期用途與限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：5e-05
訓練批次大小（train_batch_size）：8
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
優化器（optimizer）：Adam，β值為(0.9, 0.999)，ε值為1e-08
學習率調度器類型（lr_scheduler_type）：cosine_with_restarts
學習率調度器預熱比例（lr_scheduler_warmup_ratio）：0.2
訓練輪數（num_epochs）：5

各類別指標

該模型在評估集上取得了以下結果：

損失（Loss）：0.0451
整體精確率（Overall Precision）：0.9438
整體召回率（Overall Recall）：0.9663
整體F1值（Overall F1）：0.9549
整體準確率（Overall Accuracy）：0.9838

PII類別	F1值
Accountname	0.9946
Accountnumber	0.9940
Age	0.9624
Amount	0.9643
Bic	0.9929
Bitcoinaddress	0.9948
Buildingnumber	0.9845
City	0.9955
Companyname	0.9962
County	0.9877
Creditcardcvv	0.9643
Creditcardissuer	0.9953
Creditcardnumber	0.9793
Currency	0.7811
Currencycode	0.8850
Currencyname	0.2281
Currencysymbol	0.9562
Date	0.9061
Dob	0.7914
Email	1.0
Ethereumaddress	1.0
Eyecolor	0.9837
Firstname	0.9846
Gender	0.9971
Height	0.9910
Iban	0.9906
Ip	0.4349
Ipv4	0.8126
Ipv6	0.7679
Jobarea	0.9880
Jobtitle	0.9991
Jobtype	0.9777
Lastname	0.9684
Litecoinaddress	0.9721
Mac	1.0
Maskednumber	0.9635
Middlename	0.9330
Nearbygpscoordinate	1.0
Ordinaldirection	0.9910
Password	1.0
Phoneimei	0.9918
Phonenumber	0.9962
Pin	0.9477
Prefix	0.9546
Secondaryaddress	0.9892
Sex	0.9876
Ssn	0.9976
State	0.9893
Street	0.9873
Time	0.9889
Url	1.0
Useragent	0.9953
Username	0.9975
Vehiclevin	1.0
Vehiclevrm	1.0
Zipcode	0.9873

訓練結果

| 訓練損失 | 輪數 | 步數 | 驗證損失 | 整體精確率 | 整體召回率 | 整體F1值 | 整體準確率 | Accountname F1 | Accountnumber F1 | Age F1 | Amount F1 | Bic F1 | Bitcoinaddress F1 | Buildingnumber F1 | City F1 | Companyname F1 | County F1 | Creditcardcvv F1 | Creditcardissuer F1 | Creditcardnumber F1 | Currency F1 | Currencycode F1 | Currencyname F1 | Currencysymbol F1 | Date F1 | Dob F1 | Email F1 | Ethereumaddress F1 | Eyecolor F1 | Firstname F1 | Gender F1 | Height F1 | Iban F1 | Ip F1 | Ipv4 F1 | Ipv6 F1 | Jobarea F1 | Jobtitle F1 | Jobtype F1 | Lastname F1 | Litecoinaddress F1 | Mac F1 | Maskednumber F1 | Middlename F1 | Nearbygpscoordinate F1 | Ordinaldirection F1 | Password F1 | Phoneimei F1 | Phonenumber F1 | Pin F1 | Prefix F1 | Secondaryaddress F1 | Sex F1 | Ssn F1 | State F1 | Street F1 | Time F1 | Url F1 | Useragent F1 | Username F1 | Vehiclevin F1 | Vehiclevrm F1 | Zipcode F1 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 0.6445 | 1.0 | 1088 | 0.3322 | 0.6449 | 0.7003 | 0.6714 | 0.8900 | 0.7607 | 0.8733 | 0.6576 | 0.1766 | 0.25 | 0.6783 | 0.3621 | 0.6005 | 0.6909 | 0.5586 | 0.0 | 0.2449 | 0.7095 | 0.2889 | 0.0 | 0.0 | 0.3902 | 0.7720 | 0.0 | 0.9862 | 0.8011 | 0.5088 | 0.7740 | 0.7118 | 0.5434 | 0.8088 | 0.0 | 0.8303 | 0.7562 | 0.5318 | 0.7294 | 0.4681 | 0.6779 | 0.0 | 0.8909 | 0.0 | 0.0107 | 0.9985 | 0.4000 | 0.7307 | 0.9057 | 0.8618 | 0.0 | 0.9127 | 0.8235 | 0.9211 | 0.8026 | 0.4656 | 0.6390 | 0.9383 | 0.9775 | 0.8868 | 0.8201 | 0.4526 | 0.0550 | 0.5368 | | 0.222 | 2.0 | 2176 | 0.1259 | 0.8170 | 0.8747 | 0.8449 | 0.9478 | 0.9708 | 0.9813 | 0.7638 | 0.7427 | 0.7837 | 0.8908 | 0.8833 | 0.8747 | 0.9814 | 0.8749 | 0.7601 | 0.9777 | 0.8834 | 0.5372 | 0.4828 | 0.0056 | 0.7785 | 0.8149 | 0.3140 | 0.9956 | 0.9935 | 0.9101 | 0.9270 | 0.9450 | 0.9853 | 0.9253 | 0.0650 | 0.0084 | 0.7962 | 0.9013 | 0.9446 | 0.9203 | 0.8555 | 0.6885 | 1.0 | 0.7152 | 0.6442 | 1.0 | 0.9623 | 0.9349 | 0.9905 | 0.9782 | 0.7656 | 0.9324 | 0.9903 | 0.9736 | 0.9274 | 0.8520 | 0.9138 | 0.9678 | 0.9922 | 0.9893 | 0.9804 | 0.9646 | 0.8556 | 0.8385 | | 0.1331 | 3.0 | 3264 | 0.0773 | 0.9133 | 0.9371 | 0.9250 | 0.9654 | 0.9822 | 0.9815 | 0.9196 | 0.8852 | 0.9718 | 0.9785 | 0.9215 | 0.9757 | 0.9935 | 0.9651 | 0.8742 | 0.9921 | 0.9438 | 0.7568 | 0.7710 | 0.0 | 0.8998 | 0.7895 | 0.6578 | 0.9994 | 1.0 | 0.9554 | 0.9525 | 0.9823 | 0.9910 | 0.9866 | 0.0435 | 0.8293 | 0.7824 | 0.9671 | 0.9794 | 0.9571 | 0.9447 | 0.9141 | 1.0 | 0.8825 | 0.7988 | 1.0 | 0.9797 | 0.9921 | 0.9932 | 0.9943 | 0.8726 | 0.9401 | 0.9860 | 0.9792 | 0.9928 | 0.9740 | 0.9604 | 0.9730 | 0.9983 | 0.9964 | 0.9959 | 0.9890 | 0.9774 | 0.9247 | | 0.0847 | 4.0 | 4352 | 0.0503 | 0.9368 | 0.9614 | 0.9489 | 0.9789 | 0.9955 | 0.9949 | 0.9573 | 0.9480 | 0.9929 | 0.9846 | 0.9808 | 0.9927 | 0.9962 | 0.9811 | 0.9436 | 0.9953 | 0.9695 | 0.7826 | 0.8713 | 0.1653 | 0.9458 | 0.8782 | 0.7996 | 1.0 | 1.0 | 0.9809 | 0.9816 | 0.9941 | 0.9910 | 0.9906 | 0.3389 | 0.8364 | 0.7066 | 0.9862 | 1.0 | 0.9795 | 0.9637 | 0.9429 | 1.0 | 0.9438 | 0.9165 | 1.0 | 0.9864 | 1.0 | 0.9932 | 0.9962 | 0.9352 | 0.9483 | 0.9860 | 0.9866 | 0.9976 | 0.9884 | 0.9827 | 0.9881 | 1.0 | 0.9953 | 0.9975 | 0.9945 | 0.9915 | 0.9841 | | 0.0557 | 5.0 | 5440 | 0.0451 | 0.9438 | 0.9663 | 0.9549 | 0.9838 | 0.9946 | 0.9940 | 0.9624 | 0.9643 | 0.9929 | 0.9948 | 0.9845 | 0.9955 | 0.9962 | 0.9877 | 0.9643 | 0.9953 | 0.9793 | 0.7811 | 0.8850 | 0.2281 | 0.9562 | 0.9061 | 0.7914 | 1.0 | 1.0 | 0.9837 | 0.9846 | 0.9971 | 0.9910 | 0.9906 | 0.4349 | 0.8126 | 0.7679 | 0.9880 | 0.9991 | 0.9777 | 0.9684 | 0.9721 | 1.0 | 0.9635 | 0.9330 | 1.0 | 0.9910 | 1.0 | 0.9918 | 0.9962 | 0.9477 | 0.9546 | 0.9892 | 0.9876 | 0.9976 | 0.9893 | 0.9873 | 0.9889 | 1.0 | 0.9953 | 0.9975 | 1.0 | 1.0 | 0.9873 |