模型简介
模型特点
模型能力
使用案例
🚀 deberta-v3-base_finetuned_ai4privacy_v2
本模型是 microsoft/deberta-v3-base 在 ai4privacy/pii-masking-200k 数据集上的微调版本。它旨在从文本中移除个人身份信息(PII),适用于AI助手和大语言模型等场景。
🚀 快速开始
GitHub 实现:Ai4Privacy
✨ 主要特性
- 该模型在全球最大的开源隐私数据集上进行了微调。
- 训练后的模型可用于从文本中移除个人身份信息(PII),尤其适用于AI助手和大语言模型。
- 示例文本包含54种PII类别(敏感数据类型),涵盖商业、教育、心理学和法律领域的229个讨论主题/用例,以及5种交互风格(如随意对话、正式文档、电子邮件等)。
📚 详细文档
预期用途和限制
更多信息待补充。
训练和评估数据
更多信息待补充。
模型描述
本模型在全球最大的开源隐私数据集上进行了微调。训练后的模型旨在从文本中移除个人身份信息(PII),特别是在AI助手和大语言模型的场景下。示例文本有54种PII类别(敏感数据类型),针对商业、教育、心理学和法律领域的229个讨论主题/用例,以及5种交互风格(如随意对话、正式文档、电子邮件等)。具体研究可查看 GitHub 实现。
训练超参数
训练期间使用了以下超参数:
- 学习率:6e-04
- 训练批次大小:32
- 评估批次大小:32
- 随机种子:412
- 优化器:Adam,β=(0.96, 0.996),ε=1e-08
- 学习率调度器类型:cosine_with_restarts
- 学习率调度器热身比例:0.22
- 训练轮数:7
- 混合精度训练:不适用
各类别指标
该模型在评估集上取得了以下结果:
- 损失:0.0211
- 整体精确率:0.9722
- 整体召回率:0.9792
- 整体 F1 值:0.9757
- 整体准确率:0.9915
PII 类别 | F1 值 |
---|---|
Accountname | 0.9993 |
Accountnumber | 0.9986 |
Age | 0.9884 |
Amount | 0.9984 |
Bic | 0.9942 |
Bitcoinaddress | 0.9974 |
Buildingnumber | 0.9898 |
City | 1.0 |
Companyname | 1.0 |
County | 0.9976 |
Creditcardcvv | 0.9541 |
Creditcardissuer | 0.9970 |
Creditcardnumber | 0.9754 |
Currency | 0.8966 |
Currencycode | 0.9946 |
Currencyname | 0.7697 |
Currencysymbol | 0.9958 |
Date | 0.9778 |
Dob | 0.9546 |
1.0 | |
Ethereumaddress | 1.0 |
Eyecolor | 0.9925 |
Firstname | 0.9947 |
Gender | 1.0 |
Height | 1.0 |
Iban | 0.9978 |
Ip | 0.5404 |
Ipv4 | 0.8455 |
Ipv6 | 0.8855 |
Jobarea | 0.9091 |
Jobtitle | 1.0 |
Jobtype | 0.9672 |
Lastname | 0.9855 |
Litecoinaddress | 0.9949 |
Mac | 0.9965 |
Maskednumber | 0.9836 |
Middlename | 0.7385 |
Nearbygpscoordinate | 1.0 |
Ordinaldirection | 1.0 |
Password | 1.0 |
Phoneimei | 0.9978 |
Phonenumber | 0.9975 |
Pin | 0.9820 |
Prefix | 0.9872 |
Secondaryaddress | 1.0 |
Sex | 0.9916 |
Ssn | 0.9960 |
State | 0.9967 |
Street | 0.9991 |
Time | 1.0 |
Url | 1.0 |
Useragent | 0.9981 |
Username | 1.0 |
Vehiclevin | 0.9950 |
Vehiclevrm | 0.9870 |
Zipcode | 0.9966 |
训练结果
| 训练损失 | 轮数 | 步数 | 验证损失 | 整体精确率 | 整体召回率 | 整体 F1 值 | 整体准确率 | Accountname F1 | Accountnumber F1 | Age F1 | Amount F1 | Bic F1 | Bitcoinaddress F1 | Buildingnumber F1 | City F1 | Companyname F1 | County F1 | Creditcardcvv F1 | Creditcardissuer F1 | Creditcardnumber F1 | Currency F1 | Currencycode F1 | Currencyname F1 | Currencysymbol F1 | Date F1 | Dob F1 | Email F1 | Ethereumaddress F1 | Eyecolor F1 | Firstname F1 | Gender F1 | Height F1 | Iban F1 | Ip F1 | Ipv4 F1 | Ipv6 F1 | Jobarea F1 | Jobtitle F1 | Jobtype F1 | Lastname F1 | Litecoinaddress F1 | Mac F1 | Maskednumber F1 | Middlename F1 | Nearbygpscoordinate F1 | Ordinaldirection F1 | Password F1 | Phoneimei F1 | Phonenumber F1 | Pin F1 | Prefix F1 | Secondaryaddress F1 | Sex F1 | Ssn F1 | State F1 | Street F1 | Time F1 | Url F1 | Useragent F1 | Username F1 | Vehiclevin F1 | Vehiclevrm F1 | Zipcode F1 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 0.3984 | 1.0 | 2393 | 0.5120 | 0.7268 | 0.7819 | 0.7533 | 0.8741 | 0.9265 | 0.9819 | 0.8237 | 0.5053 | 0.2315 | 0.8197 | 0.7840 | 0.4886 | 0.8657 | 0.6338 | 0.8775 | 0.8575 | 0.7152 | 0.4533 | 0.0959 | 0.0 | 0.6480 | 0.7621 | 0.1884 | 0.9840 | 1.0 | 0.6194 | 0.8740 | 0.6610 | 0.9642 | 0.9039 | 0.0 | 0.8500 | 0.0220 | 0.6325 | 0.7840 | 0.6899 | 0.7667 | 0.0 | 0.2966 | 0.0 | 0.3682 | 0.9986 | 0.9387 | 0.8558 | 0.9879 | 0.9687 | 0.7455 | 0.9252 | 0.9661 | 0.9110 | 0.9771 | 0.5282 | 0.7988 | 0.8453 | 0.9648 | 0.9804 | 0.9356 | 0.7741 | 0.6780 | 0.7915 | | 0.2097 | 2.0 | 4786 | 0.1406 | 0.8392 | 0.8913 | 0.8645 | 0.9509 | 0.9760 | 0.9114 | 0.9227 | 0.7647 | 0.9190 | 0.9554 | 0.8975 | 0.8881 | 0.9535 | 0.8414 | 0.9114 | 0.9820 | 0.8503 | 0.7525 | 0.6171 | 0.0077 | 0.8787 | 0.3161 | 0.2847 | 0.9924 | 0.9918 | 0.9495 | 0.9076 | 0.9625 | 0.9890 | 0.9870 | 0.0 | 0.8484 | 0.8007 | 0.8651 | 0.9660 | 0.9164 | 0.8695 | 0.8756 | 0.9685 | 0.7768 | 0.6697 | 0.9956 | 0.9754 | 0.9652 | 0.9976 | 0.9849 | 0.7977 | 0.9373 | 0.9923 | 0.9815 | 0.9828 | 0.8093 | 0.9445 | 0.9735 | 0.9933 | 0.9651 | 0.9854 | 0.9843 | 0.975 | 0.8123 | | 0.1271 | 3.0 | 7179 | 0.1049 | 0.9218 | 0.9312 | 0.9265 | 0.9618 | 0.9950 | 0.9880 | 0.9172 | 0.9309 | 0.9652 | 0.8222 | 0.9160 | 0.9364 | 0.9749 | 0.9556 | 0.9211 | 0.9856 | 0.8939 | 0.8237 | 0.76 | 0.0080 | 0.9360 | 0.8735 | 0.5567 | 0.9993 | 0.9973 | 0.9872 | 0.9547 | 0.9773 | 0.9574 | 0.9694 | 0.0 | 0.8510 | 0.8032 | 0.9404 | 0.9844 | 0.9522 | 0.9294 | 0.8584 | 1.0 | 0.8603 | 0.8908 | 1.0 | 0.9829 | 0.9513 | 1.0 | 0.9792 | 0.8579 | 0.9413 | 0.9968 | 0.9513 | 0.9929 | 0.9278 | 0.9484 | 0.9862 | 0.9940 | 0.8884 | 0.9943 | 0.9616 | 0.9648 | 0.9395 | | 0.1345 | 4.0 | 9572 | 0.0941 | 0.9463 | 0.9580 | 0.9521 | 0.9659 | 0.9975 | 0.9979 | 0.9356 | 0.9597 | 0.9084 | 0.9569 | 0.9827 | 0.9734 | 0.9835 | 0.9780 | 0.9634 | 0.9904 | 0.9393 | 0.8542 | 0.8915 | 0.4069 | 0.9636 | 0.8873 | 0.6572 | 0.9993 | 1.0 | 0.9923 | 0.9796 | 0.9983 | 0.9917 | 0.9972 | 0.0 | 0.8515 | 0.8027 | 0.9689 | 0.9943 | 0.9685 | 0.9668 | 0.8162 | 0.9912 | 0.9110 | 0.9364 | 1.0 | 0.9848 | 0.9734 | 0.9976 | 0.9949 | 0.9739 | 0.9609 | 0.9968 | 0.9906 | 0.9899 | 0.9772 | 0.9875 | 0.9855 | 0.9978 | 1.0 | 0.9972 | 0.9867 | 0.9817 | 0.9780 | | 0.1067 | 5.0 | 11965 | 0.0724 | 0.9556 | 0.9659 | 0.9607 | 0.9699 | 0.9967 | 0.9965 | 0.9705 | 0.9742 | 0.9892 | 0.9736 | 0.9891 | 0.9794 | 0.9951 | 0.9860 | 0.9897 | 0.9892 | 0.9517 | 0.8386 | 0.9770 | 0.4186 | 0.9822 | 0.8869 | 0.7016 | 1.0 | 1.0 | 0.9949 | 0.9859 | 0.9983 | 1.0 | 0.9954 | 0.0075 | 0.8569 | 0.8012 | 0.9819 | 0.9979 | 0.9856 | 0.9843 | 0.9383 | 1.0 | 0.9318 | 0.9461 | 1.0 | 0.9905 | 1.0 | 1.0 | 0.9978 | 0.9906 | 0.9646 | 0.9981 | 0.9924 | 0.9970 | 0.9862 | 0.9966 | 0.9951 | 0.9970 | 1.0 | 0.9981 | 0.9933 | 1.0 | 1.0 | 0.9913 | | 0.0808 | 6.0 | 14358 | 0.0693 | 0.9664 | 0.9732 | 0.9698 | 0.9728 | 1.0 | 1.0 | 0.9760 | 0.9897 | 0.9978 | 0.9907 | 0.9906 | 0.9930 | 0.9994 | 0.9939 | 1.0 | 0.9891 | 0.9590 | 0.9052 | 0.9875 | 0.7022 | 0.9892 | 0.9126 | 0.7438 | 1.0 | 1.0 | 1.0 | 0.9934 | 0.9991 | 1.0 | 1.0 | 0.1551 | 0.8393 | 0.8034 | 0.9942 | 0.9993 | 0.9928 | 0.9877 | 0.9770 | 1.0 | 0.9451 | 0.9773 | 1.0 | 0.9924 | 1.0 | 1.0 | 1.0 | 0.9929 | 0.9722 | 0.9974 | 0.9949 | 0.9970 | 0.9941 | 0.9972 | 0.9967 | 1.0 | 1.0 | 0.9991 | 1.0 | 1.0 | 1.0 | 0.9890 | | 0.0779 | 7.0 | 16751 | 0.0697 | 0.9698 | 0.9756 | 0.9727 | 0.9739 | 0.9983 | 1.0 | 0.9815 | 0.9904 | 1.0 | 0.9938 | 0.9935 | 0.9930 | 0.9994 | 0.9935 | 1.0 | 0.9903 | 0.9584 | 0.9206 | 0.9917 | 0.7753 | 0.9914 | 0.9315 | 0.8305 | 1.0 | 1.0 | 1.0 | 0.9939 | 1.0 | 1.0 | 1.0 | 0.1404 | 0.8382 | 0.8029 | 0.9958 | 1.0 | 0.9944 | 0.9910 | 0.9875 | 1.0 | 0.9480 | 0.9788 | 1.0 | 0.9924 | 1.0 | 1.0 | 1.0 | 0.9929 | 0.9747 | 0.9961 | 0.9949 | 0.9970 | 0.9925 | 0.9983 | 0.9967 | 1.0 | 1.0 | 0.9991 | 1.0 | 1.0 | 1.0 | 0.9953 |
框架版本
- Transformers 4.35.2
- Pytorch 2.1.0+cu118
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 许可证
本项目采用 CC BY-NC 4.0 许可证。








