klue-roberta-small-ner-identified開源韓語模型 - 高效實現個人信息脫敏識別

首頁

Klue Roberta Small Ner Identified

由vitus9988開發

基於klue/roberta-small微調的韓語命名實體識別模型，專注於個人信息脫敏

序列標註

Transformers

韓語#韓語NER #個人信息脫敏 #高精度實體識別

下載量 6,273

發布時間 : 5/16/2024

模型概述

該模型用於韓語文本中的命名實體識別，特別針對個人信息脫敏場景，能識別包括人名、地址、電話號碼、郵箱等10類實體

模型特點

高精度識別

在評估集上達到99.59%的F1值，能準確識別各類個人信息

多類別支持

支持10類個人信息的識別，包括姓名、地址、證件號碼等敏感信息

韓語優化

基於KLUE數據集訓練，專門針對韓語文本優化

模型能力

韓語文本分析

敏感信息識別

個人信息脫敏

命名實體識別

使用案例

數據隱私保護

用戶數據脫敏

自動識別並標記文本中的個人信息，用於數據匿名化處理

準確識別姓名、電話、地址等敏感信息

合規檢查

文檔合規審查

檢查文檔中是否包含未脫敏的個人信息

發現文檔中99%以上的敏感信息

🚀 klue-roberta-small-ner-identified

該模型是基於未知數據集對 vitus9988/klue-roberta-small-ner-identified 進行微調後的版本，可用於個人信息相關的實體識別任務，在評估集上表現出色。

🚀 快速開始

此模型是 vitus9988/klue-roberta-small-ner-identified 在未知數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.0082
精確率：0.9930
召回率：0.9988
F1值：0.9959
準確率：0.9988

✨ 主要特性

為實現個人信息脫敏，該模型提供了以下項目的實體識別：

人名 [PS]
地址（舊地址及道路名地址） [AD]
卡號 [CN]
賬號 [BN]
駕駛證號 [DN]
身份證號 [RN]
護照號 [PN]
電話號碼 [PH]
電子郵件地址 [EM]
日期 [DT]

📚 詳細文檔

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率	5e - 05
訓練批次大小	64
評估批次大小	64
隨機種子	42
優化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型	線性
訓練輪數	3

訓練結果

訓練損失	輪數	步數	驗證損失	精確率	召回率	F1值	準確率
無記錄	1.0	61	0.0128	0.9871	0.9929	0.9900	0.9979
無記錄	2.0	122	0.0098	0.9895	0.9976	0.9935	0.9987
無記錄	3.0	183	0.0082	0.9930	0.9988	0.9959	0.9988

框架版本

Transformers 4.40.2
Pytorch 2.3.0+cu118
Datasets 2.19.1
Tokenizers 0.19.1

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("vitus9988/klue-roberta-small-ner-identified")
model = AutoModelForTokenClassification.from_pretrained("vitus9988/klue-roberta-small-ner-identified")

nlp = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
example = """
저는 김철수입니다. 집은 서울특별시 강남대로이고 전화번호는 010-1234-5678, 주민등록번호는 123456-1234567입니다. 메일주소는 hugging@face.com입니다. 저는 10월 25일에 출국할 예정입니다.
"""

ner_results = nlp(example)
for i in ner_results:
    print(i)

#{'entity_group': 'PS', 'score': 0.9617835, 'word': '김철수', 'start': 3, 'end': 6}
#{'entity_group': 'AD', 'score': 0.9839702, 'word': '서울특별시 강남대로', 'start': 14, 'end': 24}
#{'entity_group': 'PH', 'score': 0.9906756, 'word': '010 - 1234 - 5678', 'start': 33, 'end': 46}
#{'entity_group': 'RN', 'score': 0.9904553, 'word': '123456 - 1234567', 'start': 56, 'end': 70}
#{'entity_group': 'EM', 'score': 0.99022245, 'word': 'hugging @ face. com', 'start': 81, 'end': 97}
#{'entity_group': 'DT', 'score': 0.985629, 'word': '10월 25일', 'start': 105, 'end': 112}