klue-roberta-small-ner-identifiedオープンソース韓国語モデル - 個人情報のマスキング識別を効率的に実現

ホーム

Klue Roberta Small Ner Identified

vitus9988によって開発

klue/roberta-smallをファインチューニングした韓国語固有表現認識モデル、個人情報匿名化に特化

シーケンスラベリング

Transformers

韓国語#韓国語NER #個人情報匿名化 #高精度エンティティ認識

ダウンロード数 6,273

リリース時間 : 5/16/2024

モデル概要

このモデルは韓国語テキストにおける固有表現認識に使用され、特に個人情報匿名化シナリオ向けで、人名、住所、電話番号、メールアドレスなど10種類のエンティティを認識可能

モデル特徴

高精度認識

評価データセットで99.59%のF1値を達成、各種個人情報を正確に認識可能

多カテゴリー対応

氏名、住所、ID番号などの機微情報を含む10種類の個人情報認識をサポート

韓国語最適化

KLUEデータセットで訓練、韓国語テキストに特化して最適化

モデル能力

韓国語テキスト分析

機微情報識別

個人情報匿名化

固有表現認識

使用事例

データプライバシー保護

ユーザーデータ匿名化

テキスト中の個人情報を自動識別・マーキングし、データ匿名化処理に利用

氏名、電話番号、住所などの機微情報を正確に識別

コンプライアンスチェック

ドキュメントコンプライアンス審査

ドキュメントに未匿名化の個人情報が含まれていないかチェック

ドキュメント中の99%以上の機微情報を発見

🚀 klue-roberta-small-ner-identified

このモデルは、個人の個人情報を非識別化するための個体名認識を提供します。未知のデータセットで微調整されたバージョンで、評価セットで優れた性能を発揮します。

🚀 クイックスタート

このモデルは、vitus9988/klue-roberta-small-ner-identified を未知のデータセットで微調整したものです。評価セットでは以下の結果を達成しています。

損失: 0.0082
適合率: 0.9930
再現率: 0.9988
F1値: 0.9959
正解率: 0.9988

✨ 主な機能

個人の個人情報を非識別化するため、以下の項目に対する個体名認識を提供します。

人名 [PS]
住所 (旧住所および道路名住所) [AD]
カード番号 [CN]
口座番号 [BN]
運転免許証番号 [DN]
住民登録番号 [RN]
パスポート番号 [PN]
電話番号 [PH]
メールアドレス [EM]
日付 [DT]

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install transformers datasets torch tokenizers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("vitus9988/klue-roberta-small-ner-identified")
model = AutoModelForTokenClassification.from_pretrained("vitus9988/klue-roberta-small-ner-identified")

nlp = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
example = """
저는 김철수입니다. 집은 서울특별시 강남대로이고 전화번호는 010-1234-5678, 주민등록번호는 123456-1234567입니다. 메일주소는 hugging@face.com입니다. 저는 10월 25일에 출국할 예정입니다.
"""

ner_results = nlp(example)
for i in ner_results:
    print(i)

#{'entity_group': 'PS', 'score': 0.9617835, 'word': '김철수', 'start': 3, 'end': 6}
#{'entity_group': 'AD', 'score': 0.9839702, 'word': '서울특별시 강남대로', 'start': 14, 'end': 24}
#{'entity_group': 'PH', 'score': 0.9906756, 'word': '010 - 1234 - 5678', 'start': 33, 'end': 46}
#{'entity_group': 'RN', 'score': 0.9904553, 'word': '123456 - 1234567', 'start': 56, 'end': 70}
#{'entity_group': 'EM', 'score': 0.99022245, 'word': 'hugging @ face. com', 'start': 81, 'end': 97}
#{'entity_group': 'DT', 'score': 0.985629, 'word': '10월 25일', 'start': 105, 'end': 112}