S

Starpii

由bigcode開發
用於檢測代碼數據集中個人可識別信息(PII)的NER模型,支持識別姓名、電子郵件、密鑰、密碼、IP地址和用戶名等6類PII
下載量 2,484
發布時間 : 4/23/2023

模型概述

該模型基於bigcode-encoder微調,專門用於從代碼數據中識別和移除個人可識別信息(PII),支持多種編程語言

模型特點

偽標籤增強訓練
先在偽標記數據集上預訓練,再在標註數據上微調,顯著提升了密鑰等罕見PII實體的識別性能
多類別PII檢測
可識別6類PII:姓名、電子郵件、密鑰、密碼、IP地址和用戶名
智能後處理
包含多種後處理規則,如忽略短密鑰、非全名、無效IP等,減少誤報
多編程語言支持
基於88種編程語言預訓練的編碼器,在31種語言的PII數據上微調

模型能力

代碼中的PII檢測
多類別實體識別
跨語言PII識別

使用案例

數據隱私保護
代碼庫PII清理
在訓練AI模型前清理代碼庫中的敏感信息
有效識別並移除代碼中的PII,降低數據洩露風險
開源項目審核
檢查開源代碼是否包含敏感信息
幫助開發者發現並移除意外提交的PII
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase