distilbert-base-multilingual-cased-pii開源模型 - 免費使用精準識別文本PII信息

首頁

Distilbert Base Multilingual Cased Pii

由yonigo開發

基於distilbert-base-multilingual-cased微調的多語言PII識別模型，用於識別文本中的個人身份信息。

序列標註

Transformers

開源協議:Apache-2.0 #多語言PII識別 #高精度實體抽取 #隱私信息檢測

下載量 531

發布時間 : 6/25/2024

模型概述

該模型在ai4privacy/pii-masking-300k數據集上微調，專門用於識別和分類文本中的個人身份信息（PII），如姓名、地址、電話號碼等。

模型特點

多語言支持

基於多語言DistilBERT模型，支持多種語言的PII識別。

高精度識別

在多個PII類別上表現出高F1值，如Email F1達到0.9833，Ip F1達到0.9842。

輕量級模型

基於DistilBERT架構，相比完整BERT模型更輕量，同時保持較高性能。

模型能力

識別個人身份信息

多語言文本處理

實體分類

使用案例

數據隱私保護

自動PII掩碼

自動識別文本中的個人身份信息並進行掩碼處理，保護用戶隱私。

可準確識別姓名、電話號碼、地址等多種PII類型

合規性檢查

文檔合規性審查

檢查文檔中是否包含需要保護的敏感信息，確保符合隱私法規要求。

高準確率識別多種PII類型，幫助確保合規

🚀 distilbert-base-multilingual-cased-pii

本模型是 distilbert-base-multilingual-cased 在 ai4privacy/pii-masking-300k 數據集上的微調版本，可用於識別和處理個人身份信息（PII）。

🚀 快速開始

以下是使用該模型的示例代碼：

from transformers import pipeline

pipe = pipeline("token-classification", model="yonigo/distilbert-base-multilingual-cased-pii", aggregation_strategy="first")
pipe("My name is Yoni Go and I live in Israel. My phone number is 054-1234567")

訓練代碼請參考 git。

✨ 主要特性

微調模型：基於 distilbert-base-multilingual-cased 進行微調，能更好地適應特定的 PII 識別任務。
多指標評估：在評估集上展示了多個指標的評估結果，如精確率、召回率、F1 值和準確率等，表現良好。

📦 安裝指南

文檔中未提及具體安裝步驟，可參考 transformers 庫的官方安裝指南進行安裝。

💻 使用示例

基礎用法

from transformers import pipeline

pipe = pipeline("token-classification", model="yonigo/distilbert-base-multilingual-cased-pii", aggregation_strategy="first")
pipe("My name is Yoni Go and I live in Israel. My phone number is 054-1234567")

高級用法

文檔中未提及高級用法相關代碼，可根據具體需求對基礎用法代碼進行擴展。

📚 詳細文檔

評估結果

該模型在評估集上取得了以下結果：

Loss: 0.0470
Bod F1: 0.9642
Building F1: 0.9789
Cardissuer F1: 0.9697
City F1: 0.9566
Country F1: 0.9737
Date F1: 0.9264
Driverlicense F1: 0.9633
Email F1: 0.9833
Geocoord F1: 0.9654
Givenname1 F1: 0.8653
Givenname2 F1: 0.8170
Idcard F1: 0.9390
Ip F1: 0.9842
Lastname1 F1: 0.8495
Lastname2 F1: 0.7609
Lastname3 F1: 0.7281
Pass F1: 0.9247
Passport F1: 0.9540
Postcode F1: 0.9808
Secaddress F1: 0.9732
Sex F1: 0.9700
Socialnumber F1: 0.9689
State F1: 0.9761
Street F1: 0.9609
Tel F1: 0.9777
Time F1: 0.9701
Title F1: 0.9572
Username F1: 0.9594
Precision: 0.9428
Recall: 0.9582
F1: 0.9504
Accuracy: 0.9909

訓練結果

訓練損失	輪數	步數	驗證損失	Bod F1	建築物 F1	髮卡行 F1	城市 F1	國家 F1	日期 F1	駕駛證 F1	郵箱 F1	地理座標 F1	名字1 F1	名字2 F1	身份證 F1	IP F1	姓氏1 F1	姓氏2 F1	姓氏3 F1	密碼 F1	護照 F1	郵政編碼 F1	二級地址 F1	性別 F1	社保號碼 F1	州 F1	街道 F1	電話 F1	時間 F1	頭銜 F1	用戶名 F1	精確率	召回率	F1	準確率
0.2604	0.3601	1000	0.1439	0.8486	0.8928	0.0	0.6347	0.7409	0.6650	0.4865	0.9454	0.8685	0.4884	0.0	0.4298	0.9051	0.4869	0.0	0.0	0.6948	0.5073	0.7842	0.4352	0.6765	0.7223	0.7680	0.6802	0.8438	0.9211	0.5403	0.8180	0.6715	0.7248	0.6971	0.9663
0.0866	0.7202	2000	0.0707	0.9385	0.9611	0.0	0.9027	0.9564	0.8655	0.8200	0.9750	0.9546	0.7057	0.2081	0.8231	0.9689	0.6300	0.1133	0.0	0.8483	0.8467	0.9453	0.9564	0.9319	0.8831	0.9450	0.9101	0.9487	0.9529	0.8716	0.9285	0.8700	0.8839	0.8769	0.9839
0.0659	1.0803	3000	0.0554	0.9507	0.9705	0.0	0.9241	0.9644	0.8952	0.8736	0.9792	0.9280	0.8046	0.6345	0.8698	0.9748	0.7571	0.5305	0.0	0.8533	0.8883	0.9659	0.9678	0.9571	0.9209	0.9615	0.9303	0.9617	0.9630	0.9145	0.9455	0.9014	0.9216	0.9114	0.9868
0.0523	1.4404	4000	0.0484	0.9553	0.9766	0.0	0.9358	0.9677	0.9017	0.8924	0.9758	0.9645	0.8305	0.7005	0.8966	0.9765	0.7978	0.5920	0.0	0.8963	0.9195	0.9741	0.9688	0.9644	0.9266	0.9696	0.9421	0.9706	0.9656	0.9301	0.9520	0.9183	0.9325	0.9253	0.9884
0.0465	1.8005	5000	0.0467	0.9576	0.9759	0.0	0.9400	0.9701	0.9138	0.9209	0.9837	0.9568	0.8423	0.7384	0.9088	0.9835	0.8042	0.6235	0.2139	0.8985	0.9308	0.9711	0.9673	0.9649	0.9450	0.9714	0.9471	0.9708	0.9672	0.9447	0.9532	0.9206	0.9445	0.9324	0.9890
0.0401	2.1606	6000	0.0441	0.9629	0.9755	0.0	0.9486	0.9700	0.9154	0.9288	0.9809	0.9619	0.8485	0.7652	0.9180	0.9826	0.8231	0.6677	0.4724	0.8883	0.9343	0.9777	0.9734	0.9685	0.9490	0.9733	0.9529	0.9743	0.9672	0.9482	0.9555	0.9300	0.9454	0.9377	0.9895
0.0401	2.5207	7000	0.0428	0.9619	0.9769	0.0	0.9492	0.9709	0.9206	0.9401	0.9795	0.9615	0.8550	0.7776	0.9274	0.9827	0.8267	0.6742	0.5845	0.9085	0.9427	0.9798	0.9755	0.9690	0.9515	0.9736	0.9557	0.9764	0.9700	0.9479	0.9580	0.9340	0.9491	0.9415	0.9900
0.0394	2.8808	8000	0.0420	0.9616	0.9770	0.0	0.9481	0.9730	0.9185	0.9451	0.9832	0.9569	0.8526	0.7895	0.9269	0.9852	0.8312	0.7121	0.6234	0.9168	0.9441	0.9778	0.9737	0.9700	0.9514	0.9738	0.9565	0.9751	0.9674	0.9512	0.9562	0.9324	0.9535	0.9429	0.9901
0.0323	3.2409	9000	0.0422	0.9575	0.9781	0.0	0.9521	0.9725	0.9215	0.9445	0.9787	0.9601	0.8459	0.7863	0.9238	0.9834	0.8189	0.7040	0.6460	0.9117	0.9393	0.9792	0.9748	0.9679	0.9575	0.9746	0.9569	0.9732	0.9688	0.9509	0.9557	0.9336	0.9500	0.9418	0.9899
0.0313	3.6010	10000	0.0412	0.9630	0.9784	0.0	0.9551	0.9741	0.9235	0.9460	0.9826	0.9646	0.8619	0.7991	0.9277	0.9829	0.8386	0.7306	0.6767	0.9199	0.9454	0.9810	0.9746	0.9692	0.9598	0.9746	0.9589	0.9731	0.9685	0.9547	0.9583	0.9390	0.9527	0.9458	0.9904
0.0304	3.9611	11000	0.0404	0.9587	0.9792	0.1333	0.9511	0.9725	0.9219	0.9538	0.9769	0.9578	0.8589	0.8061	0.9255	0.9845	0.8402	0.7395	0.6790	0.9136	0.9479	0.9801	0.9748	0.9698	0.9628	0.9752	0.9581	0.9775	0.9695	0.9501	0.9597	0.9373	0.9540	0.9456	0.9904
0.0264	4.3212	12000	0.0416	0.9599	0.9794	0.5	0.9547	0.9735	0.9271	0.9557	0.9809	0.9537	0.8510	0.8016	0.9316	0.9816	0.8358	0.7412	0.6877	0.9212	0.9476	0.9779	0.9729	0.9682	0.9611	0.9748	0.9593	0.9742	0.9697	0.9551	0.9590	0.9370	0.9550	0.9459	0.9904
0.0266	4.6813	13000	0.0412	0.9629	0.9800	0.5	0.9511	0.9697	0.9276	0.9564	0.9826	0.9578	0.8590	0.8078	0.9303	0.9830	0.8423	0.7470	0.6945	0.9162	0.9468	0.9789	0.9713	0.9692	0.9597	0.9748	0.9584	0.9759	0.9698	0.9555	0.9575	0.9355	0.9579	0.9466	0.9905
0.0236	5.0414	14000	0.0414	0.9614	0.9786	0.6061	0.9562	0.9736	0.9223	0.9595	0.9821	0.9537	0.8673	0.8108	0.9367	0.9811	0.8422	0.7523	0.7140	0.9190	0.9503	0.9807	0.9679	0.9689	0.9676	0.9750	0.9611	0.9758	0.9699	0.9556	0.9589	0.9426	0.9543	0.9484	0.9907
0.0221	5.4015	15000	0.0420	0.9597	0.9797	0.6667	0.9554	0.9734	0.9210	0.9587	0.9832	0.9667	0.8637	0.8121	0.9367	0.9852	0.8449	0.7509	0.7145	0.9178	0.9498	0.9808	0.9746	0.9707	0.9650	0.9746	0.9604	0.9749	0.9692	0.9556	0.9591	0.9405	0.9563	0.9484	0.9906
0.021	5.7616	16000	0.0421	0.9613	0.9794	0.6667	0.9532	0.9736	0.9287	0.9554	0.9792	0.9599	0.8624	0.8146	0.9334	0.9790	0.8445	0.7534	0.7154	0.9181	0.9487	0.9791	0.9721	0.9691	0.9646	0.9748	0.9534	0.9757	0.9693	0.9561	0.9586	0.9403	0.9545	0.9473	0.9905
0.0174	6.1217	17000	0.0433	0.9617	0.9788	0.7879	0.9545	0.9738	0.9241	0.9598	0.9829	0.9589	0.8570	0.8131	0.9369	0.9838	0.8449	0.7581	0.7242	0.9230	0.9488	0.9798	0.9690	0.9691	0.9652	0.9759	0.9563	0.9769	0.9700	0.9556	0.9581	0.9403	0.9563	0.9482	0.9907
0.017	6.4818	18000	0.0442	0.9623	0.9790	0.9697	0.9566	0.9744	0.9258	0.9608	0.9833	0.9574	0.8565	0.8130	0.9350	0.9845	0.8450	0.7552	0.7329	0.9216	0.9519	0.9800	0.9723	0.9703	0.9675	0.9762	0.9605	0.9775	0.9713	0.9545	0.9582	0.9398	0.9582	0.9489	0.9907
0.017	6.8419	19000	0.0431	0.9639	0.9778	0.9697	0.9562	0.9738	0.9286	0.9612	0.9842	0.9607	0.8641	0.8160	0.9363	0.9828	0.8481	0.7610	0.7292	0.9198	0.9531	0.9800	0.9757	0.9699	0.9657	0.9751	0.9600	0.9767	0.9705	0.9565	0.9587	0.9414	0.9577	0.9495	0.9909
0.015	7.2020	20000	0.0438	0.9645	0.9795	0.9091	0.9550	0.9734	0.9295	0.9605	0.9824	0.9605	0.8594	0.8120	0.9382	0.9837	0.8452	0.7571	0.7222	0.9220	0.9540	0.9810	0.9745	0.9700	0.9672	0.9758	0.9599	0.9783	0.9702	0.9551	0.9596	0.9414	0.9576	0.9494	0.9908
0.0152	7.5621	21000	0.0451	0.9644	0.9795	0.9697	0.9570	0.9741	0.9271	0.9616	0.9826	0.9597	0.8649	0.8121	0.9374	0.9848	0.8469	0.7612	0.7261	0.9231	0.9530	0.9809	0.9747	0.9704	0.9661	0.9756	0.9618	0.9769	0.9706	0.9570	0.9601	0.9427	0.9573	0.9499	0.9908
0.0137	7.9222	22000	0.0450	0.9628	0.9780	0.9697	0.9565	0.9742	0.9289	0.9627	0.9832	0.9613	0.8643	0.8169	0.9374	0.9840	0.8497	0.7632	0.7292	0.9234	0.9514	0.9807	0.9737	0.9695	0.9674	0.9758	0.9610	0.9778	0.9701	0.9572	0.9596	0.9420	0.9582	0.9501	0.9908
0.0122	8.2823	23000	0.0463	0.9646	0.9789	0.9697	0.9560	0.9738	0.9276	0.9628	0.9835	0.9602	0.8643	0.8176	0.9386	0.9838	0.8494	0.7638	0.7275	0.9233	0.9519	0.9806	0.9739	0.9696	0.9682	0.9762	0.9604	0.9769	0.9698	0.9577	0.9592	0.9426	0.9578	0.9502	0.9908
0.0123	8.6424	24000	0.0459	0.9626	0.9782	0.9697	0.9566	0.9743	0.9276	0.9628	0.9839	0.9613	0.8670	0.8163	0.9394	0.9850	0.8487	0.7635	0.7357	0.9241	0.9539	0.9810	0.9737	0.9701	0.9680	0.9757	0.9617	0.9780	0.9702	0.9574	0.9601	0.9436	0.9578	0.9506	0.9909
0.0133	9.0025	25000	0.0462	0.9636	0.9788	0.9697	0.9563	0.9731	0.9273	0.9631	0.9835	0.9625	0.8672	0.8157	0.9393	0.9837	0.8495	0.7609	0.7289	0.9236	0.9541	0.9814	0.9737	0.9698	0.9684	0.9761	0.9618	0.9776	0.9698	0.9570	0.9591	0.9435	0.9574	0.9504	0.9909
0.0112	9.3626	26000	0.0467	0.9624	0.9789	0.9697	0.9567	0.9740	0.9243	0.9635	0.9832	0.9654	0.8643	0.8170	0.9375	0.9844	0.8489	0.7603	0.7303	0.9248	0.9534	0.9812	0.9735	0.9701	0.9685	0.9762	0.9617	0.9784	0.9698	0.9563	0.9594	0.9428	0.9576	0.9501	0.9909
0.0116	9.7227	27000	0.0464	0.9628	0.9789	0.9697	0.9562	0.9741	0.9260	0.9633	0.9826	0.9643	0.8637	0.8138	0.9379	0.9843	0.8492	0.7610	0.7278	0.9245	0.9536	0.9808	0.9725	0.9702	0.9686	0.9761	0.9613	0.9778	0.9698	0.9564	0.9591	0.9419	0.9583	0.9500	0.9908
0.011	10.0828	28000	0.0470	0.9637	0.9790	0.9697	0.9561	0.9736	0.9266	0.9632	0.9831	0.9646	0.8656	0.8160	0.9384	0.9843	0.8494	0.7597	0.7281	0.9239	0.9537	0.9805	0.9731	0.9701	0.9685	0.9759	0.9611	0.9778	0.9698	0.9573	0.9591	0.9423	0.9583	0.9502	0.9909
0.011	10.4429	29000	0.0469	0.9642	0.9790	0.9697	0.9567	0.9738	0.9267	0.9632	0.9834	0.9654	0.8653	0.8172	0.9393	0.9842	0.8495	0.7609	0.7287	0.9247	0.9544	0.9809	0.9732	0.9699	0.9687	0.9762	0.9614	0.9777	0.9699	0.9574	0.9596	0.9430	0.9581	0.9505	0.9909
0.0106	10.8030	30000	0.0470	0.9642	0.9789	0.9697	0.9566	0.9737	0.9264	0.9633	0.9833	0.9654	0.8653	0.8170	0.9390	0.9842	0.8495	0.7609	0.7281	0.9247	0.9540	0.9808	0.9732	0.9700	0.9689	0.9761	0.9609	0.9777	0.9701	0.9572	0.9594	0.9428	0.9582	0.9504	0.9909