🚀 Piiranha-v1:保護您的個人信息!
Piiranha 模型(遵循 cc-by-nc-nd-4.0 許可協議)經過訓練,可在六種語言中檢測 17 種類型的個人身份信息(PII)。它能夠成功捕獲 98.27% 的 PII 標記,整體分類準確率達到 99.44%。尤其在檢測密碼、電子郵件(準確率達 100%)、電話號碼和用戶名方面表現出色。
🚀 快速開始
Piiranha 模型可用於協助從文本中編輯個人身份信息(PII)。不過,請自行承擔使用風險,我們不承擔模型預測錯誤的任何責任。
✨ 主要特性
- 多語言支持:支持英語、西班牙語、法語、德語、意大利語和荷蘭語。
- 高精度檢測:能夠檢測 17 種類型的 PII,在 PII 與非 PII 分類任務中表現出色,準確率高達 99.44%。
- 特定類型檢測準確:對密碼、電子郵件、電話號碼和用戶名等特定類型的 PII 檢測準確率極高。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型描述
Piiranha 是 microsoft/mdeberta-v3-base 的微調版本。上下文長度為 256 個 Deberta 標記。如果您的文本長度超過此限制,只需將其拆分即可。
支持的語言:英語、西班牙語、法語、德語、意大利語、荷蘭語。
支持的 PII 類型:賬號號碼、建築物編號、城市、信用卡號碼、出生日期、駕照號碼、電子郵件、名字、姓氏、身份證號碼、密碼、社會安全號碼、街道地址、稅務號碼、電話號碼、用戶名、郵政編碼。
在包含約 73,000 個包含 PII 的句子的測試集上,該模型取得了以下結果:
- 準確率:99.44%
- 損失:0.0173
- 精確率:93.16%
- 召回率:93.08%
- F1 值:93.12%
請注意,上述指標考慮了 18 種可能的類別(17 種 PII 和 1 種非 PII),因此這些指標低於僅針對 PII 與非 PII 的二元分類指標。
按 PII 類型的性能
由於類別不平衡(大多數標記不是 PII),報告的性能指標低於 99.44% 的整體準確率。然而,由於 PII 檢測的目的,該模型比以下結果更有用。模型有時會將一種 PII 類型誤分類為另一種,但最終仍能將該標記識別為 PII。例如,模型經常將名字誤判為姓氏,但這並不影響它將該名字標記為 PII。
實體 |
精確率 |
召回率 |
F1 分數 |
支持度 |
ACCOUNTNUM |
0.84 |
0.87 |
0.85 |
3575 |
BUILDINGNUM |
0.92 |
0.90 |
0.91 |
3252 |
CITY |
0.95 |
0.97 |
0.96 |
7270 |
CREDITCARDNUMBER |
0.94 |
0.96 |
0.95 |
2308 |
DATEOFBIRTH |
0.93 |
0.85 |
0.89 |
3389 |
DRIVERLICENSENUM |
0.96 |
0.96 |
0.96 |
2244 |
EMAIL |
1.00 |
1.00 |
1.00 |
6892 |
GIVENNAME |
0.87 |
0.93 |
0.90 |
12150 |
IDCARDNUM |
0.89 |
0.94 |
0.91 |
3700 |
PASSWORD |
0.98 |
0.98 |
0.98 |
2387 |
SOCIALNUM |
0.93 |
0.94 |
0.93 |
2709 |
STREET |
0.97 |
0.95 |
0.96 |
3331 |
SURNAME |
0.89 |
0.78 |
0.83 |
8267 |
TAXNUM |
0.97 |
0.89 |
0.93 |
2322 |
TELEPHONENUM |
0.99 |
1.00 |
0.99 |
5039 |
USERNAME |
0.98 |
0.98 |
0.98 |
7680 |
ZIPCODE |
0.94 |
0.97 |
0.95 |
3191 |
微平均 |
0.93 |
0.93 |
0.93 |
79706 |
宏平均 |
0.94 |
0.93 |
0.93 |
79706 |
加權平均 |
0.93 |
0.93 |
0.93 |
79706 |
預期用途和限制
Piiranha 可用於協助從文本中編輯 PII。請自行承擔使用風險,我們不承擔模型預測錯誤的任何責任。
訓練和評估數據
文檔未提供相關詳細信息,故跳過此章節。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:5e-05
- 訓練批次大小:128
- 評估批次大小:128
- 隨機種子:42
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:線性
- 學習率調度器預熱比例:0.05
- 訓練輪數:5
- 混合精度訓練:原生 AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
F1 值 |
準確率 |
0.2984 |
0.0983 |
250 |
0.1005 |
0.5446 |
0.6111 |
0.5759 |
0.9702 |
0.0568 |
0.1965 |
500 |
0.0464 |
0.7895 |
0.8459 |
0.8167 |
0.9849 |
0.0441 |
0.2948 |
750 |
0.0400 |
0.8346 |
0.8669 |
0.8504 |
0.9869 |
0.0368 |
0.3931 |
1000 |
0.0320 |
0.8531 |
0.8784 |
0.8656 |
0.9891 |
0.0323 |
0.4914 |
1250 |
0.0293 |
0.8779 |
0.8889 |
0.8834 |
0.9903 |
0.0287 |
0.5896 |
1500 |
0.0269 |
0.8919 |
0.8836 |
0.8877 |
0.9907 |
0.0282 |
0.6879 |
1750 |
0.0276 |
0.8724 |
0.9012 |
0.8866 |
0.9903 |
0.0268 |
0.7862 |
2000 |
0.0254 |
0.8890 |
0.9041 |
0.8965 |
0.9914 |
0.0264 |
0.8844 |
2250 |
0.0236 |
0.8886 |
0.9040 |
0.8962 |
0.9915 |
0.0243 |
0.9827 |
2500 |
0.0232 |
0.8998 |
0.9033 |
0.9015 |
0.9917 |
0.0213 |
1.0810 |
2750 |
0.0237 |
0.9115 |
0.9040 |
0.9077 |
0.9923 |
0.0213 |
1.1792 |
3000 |
0.0222 |
0.9123 |
0.9143 |
0.9133 |
0.9925 |
0.0217 |
1.2775 |
3250 |
0.0222 |
0.8999 |
0.9169 |
0.9083 |
0.9924 |
0.0209 |
1.3758 |
3500 |
0.0212 |
0.9111 |
0.9133 |
0.9122 |
0.9928 |
0.0204 |
1.4741 |
3750 |
0.0206 |
0.9054 |
0.9203 |
0.9128 |
0.9926 |
0.0183 |
1.5723 |
4000 |
0.0212 |
0.9126 |
0.9160 |
0.9143 |
0.9927 |
0.0191 |
1.6706 |
4250 |
0.0192 |
0.9122 |
0.9192 |
0.9157 |
0.9929 |
0.0185 |
1.7689 |
4500 |
0.0195 |
0.9200 |
0.9191 |
0.9196 |
0.9932 |
0.018 |
1.8671 |
4750 |
0.0188 |
0.9136 |
0.9215 |
0.9176 |
0.9933 |
0.0183 |
1.9654 |
5000 |
0.0191 |
0.9179 |
0.9212 |
0.9196 |
0.9934 |
0.0147 |
2.0637 |
5250 |
0.0188 |
0.9246 |
0.9242 |
0.9244 |
0.9937 |
0.0149 |
2.1619 |
5500 |
0.0184 |
0.9188 |
0.9254 |
0.9221 |
0.9937 |
0.0143 |
2.2602 |
5750 |
0.0193 |
0.9187 |
0.9224 |
0.9205 |
0.9932 |
0.014 |
2.3585 |
6000 |
0.0190 |
0.9246 |
0.9280 |
0.9263 |
0.9936 |
0.0146 |
2.4568 |
6250 |
0.0190 |
0.9225 |
0.9277 |
0.9251 |
0.9936 |
0.0148 |
2.5550 |
6500 |
0.0175 |
0.9297 |
0.9306 |
0.9301 |
0.9942 |
0.0136 |
2.6533 |
6750 |
0.0172 |
0.9191 |
0.9329 |
0.9259 |
0.9938 |
0.0137 |
2.7516 |
7000 |
0.0166 |
0.9299 |
0.9312 |
0.9306 |
0.9942 |
0.014 |
2.8498 |
7250 |
0.0167 |
0.9285 |
0.9313 |
0.9299 |
0.9942 |
0.0128 |
2.9481 |
7500 |
0.0166 |
0.9271 |
0.9326 |
0.9298 |
0.9943 |
0.0113 |
3.0464 |
7750 |
0.0171 |
0.9286 |
0.9347 |
0.9316 |
0.9946 |
0.0103 |
3.1447 |
8000 |
0.0172 |
0.9284 |
0.9383 |
0.9334 |
0.9945 |
0.0104 |
3.2429 |
8250 |
0.0169 |
0.9312 |
0.9406 |
0.9359 |
0.9947 |
0.0094 |
3.3412 |
8500 |
0.0166 |
0.9368 |
0.9359 |
0.9364 |
0.9948 |
0.01 |
3.4395 |
8750 |
0.0166 |
0.9289 |
0.9387 |
0.9337 |
0.9944 |
0.0099 |
3.5377 |
9000 |
0.0162 |
0.9335 |
0.9332 |
0.9334 |
0.9947 |
0.0099 |
3.6360 |
9250 |
0.0160 |
0.9321 |
0.9380 |
0.9350 |
0.9947 |
0.01 |
3.7343 |
9500 |
0.0168 |
0.9306 |
0.9389 |
0.9347 |
0.9947 |
0.0101 |
3.8325 |
9750 |
0.0159 |
0.9339 |
0.9350 |
0.9344 |
0.9947 |
聯繫信息
如有問題,請聯繫:william (at) integrinet [dot] org
框架版本
- Transformers 4.44.2
- Pytorch 2.4.1+cu121
- Datasets 3.0.0
- Tokenizers 0.19.1
🔧 技術細節
文檔未提供具體技術實現細節,故跳過此章節。
📄 許可證
該模型遵循 cc-by-nc-nd-4.0 許可協議。