🚀 Gretel GLiNER: PII/PHI検出用のファインチューニング済みモデル
このGretel GLiNERモデルは、GLiNERベースモデルknowledgator/gliner-bi-small-v1.0
をファインチューニングしたもので、個人情報(PII)および医療関連の個人情報(PHI)の検出に特化して訓練されています。Gretel GLiNERは、様々な業界や文書タイプにおいて、プライバシーに準拠したエンティティ認識を提供するのに役立ちます。
ベースのGLiNERモデルに関する詳細情報(アーキテクチャや一般的な機能を含む)については、GLiNERモデルカードを参照してください。
このモデルは、gretelai/gretel-pii-masking-en-v1
データセットでファインチューニングされました。このデータセットは、PIIおよびPHIエンティティを含む合成文書の断片を豊富かつ多様に収集したものです。
- 訓練:合成データセットの訓練分割を利用しました。
- 検証:検証セットを使用してパフォーマンスを監視し、訓練パラメータを調整しました。
- 評価:PII/PHIエンティティのアノテーションを正解として、テストセットで最終的なパフォーマンスを評価しました。
データセットの詳細な統計情報(ドメインやエンティティタイプの分布を含む)については、Hugging Faceのデータセットドキュメントを参照してください。
🚀 クイックスタート
✨ 主な機能
Gretel GLiNERモデルは、PIIおよびPHIの検出に特化しており、様々な業界や文書タイプにおいてプライバシーに準拠したエンティティ認識を提供します。
📦 インストール
Pythonがインストールされていることを確認してから、gliner
パッケージをインストールまたは更新します。
pip install gliner -U
💻 使用例
基本的な使用法
from gliner import GLiNER
model = GLiNER.from_pretrained("gretelai/gretel-gliner-bi-small-v1.0")
text = """
Purchase Order
----------------
Date: 10/05/2023
----------------
Customer Name: CID-982305
Billing Address: 1234 Oak Street, Suite 400, Springfield, IL, 62704
Phone: (312) 555-7890 (555-876-5432)
Email: janedoe@company.com
"""
labels = [
"medical_record_number",
"date_of_birth",
"ssn",
"date",
"first_name",
"email",
"last_name",
"customer_id",
"employee_id",
"name",
"street_address",
"phone_number",
"ipv4",
"credit_card_number",
"license_plate",
"address",
"user_name",
"device_identifier",
"bank_routing_number",
"date_time",
"company_name",
"unique_identifier",
"biometric_identifier",
"account_number",
"city",
"certificate_license_number",
"time",
"postcode",
"vehicle_identifier",
"coordinate",
"country",
"api_key",
"ipv6",
"password",
"health_plan_beneficiary_number",
"national_id",
"tax_id",
"url",
"state",
"swift_bic",
"cvv",
"pin"
]
entities = model.predict_entities(text, labels, threshold=0.7)
for entity in entities:
print(f"{entity['text']} => {entity['label']}")
期待される出力
CID-982305 => customer_id
1234 Oak Street, Suite 400 => street_address
Springfield => city
IL => state
62704 => postcode
(312) 555-7890 => phone_number
555-876-5432 => phone_number
janedoe@company.com => email
📚 ドキュメント
モデルのパフォーマンス
すべてのファインチューニング済みGretel GLiNERモデルは、精度、適合率、再現率、およびF1スコアにおいて、ベースモデルに比べて大幅な改善を示しています。
モデル |
精度 |
適合率 |
再現率 |
F1スコア |
gretelai/gretel-gliner-bi-small-v1.0 |
0.89 |
0.98 |
0.91 |
0.94 |
gretelai/gretel-gliner-bi-base-v1.0 |
0.91 |
0.98 |
0.92 |
0.95 |
gretelai/gretel-gliner-bi-large-v1.0 |
0.91 |
0.99 |
0.93 |
0.95 |
利用事例
Gretel GLiNERは、機密情報の検出と編集が必要なアプリケーションに最適です。
- 医療分野:医療レコードから患者情報を自動抽出し、編集する。
- 金融分野:口座番号や取引詳細などの金融データを特定し、保護する。
- サイバーセキュリティ分野:ログやセキュリティレポート内の機密情報を検出する。
- 法律分野:契約書や法的文書を処理し、クライアント情報を保護する。
- データプライバシーコンプライアンス:GDPRやHIPAAなどの規制に準拠したデータ処理プロセスを確保するために、PII/PHIを正確に特定する。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
引用と利用
このデータセットを研究やアプリケーションで使用する場合は、以下のように引用してください。
@dataset{gretel-pii-masking-en-v1,
author = {Gretel AI},
title = {GLiNER Models for PII Detection through Fine-Tuning on Gretel-Generated Synthetic Documents},
year = {2024},
month = {10},
publisher = {Gretel},
howpublished = {https://huggingface.co/gretelai/gretel-pii-masking-en-v1}
}
質問、問題、または追加情報については、合成データDiscordコミュニティにアクセスするか、gretel.aiに問い合わせてください。