🚀 GLiNER PIIのモデルカード
GLiNERは、双方向トランスフォーマーエンコーダ(BERTライク)を使用して、任意のエンティティタイプを識別できる固有表現抽出(NER)モデルです。このモデルは、事前定義されたエンティティに限定される従来のNERモデルや、柔軟性はあるもののリソース制約のあるシナリオではコストが高くサイズが大きい大規模言語モデル(LLM)の実用的な代替手段を提供します。
このモデルは、urchade/gliner_multi-v2.1
をurchade/synthetic-pii-ner-mistral-v1
データセットでファインチューニングすることで学習されました。
このモデルは、以下に限定されないが、person
(個人)、organization
(組織)、phone number
(電話番号)、address
(住所)、passport number
(パスポート番号)、email
(メールアドレス)、credit card number
(クレジットカード番号)、social security number
(社会保障番号)、health insurance id number
(健康保険ID番号)、date of birth
(生年月日)、mobile phone number
(携帯電話番号)、bank account number
(銀行口座番号)、medication
(薬剤)、cpf
(ブラジルの個人識別番号)、driver's license number
(運転免許証番号)、tax identification number
(税務識別番号)、medical condition
(病状)、identity card number
(身分証明書番号)、national id number
(国民ID番号)、ip address
(IPアドレス)、email address
(メールアドレス)、iban
(国際銀行口座番号)、credit card expiration date
(クレジットカード有効期限)、username
(ユーザー名)、health insurance number
(健康保険番号)、registration number
(登録番号)、student id number
(学生ID番号)、insurance number
(保険番号)、flight number
(便名)、landline phone number
(固定電話番号)、blood type
(血液型)、cvv
(クレジットカードセキュリティコード)、reservation number
(予約番号)、digital signature
(電子署名)、social media handle
(ソーシャルメディアハンドル)、license plate number
(ナンバープレート番号)、cnpj
(ブラジルの法人識別番号)、postal code
(郵便番号)、passport_number
(パスポート番号)、serial number
(シリアル番号)、vehicle registration number
(車両登録番号)、credit card brand
(クレジットカードブランド)、fax number
(ファックス番号)、visa number
(ビザ番号)、insurance company
(保険会社)、identity document number
(身分証明書番号)、transaction number
(取引番号)、national health insurance number
(国民健康保険番号)、cvc
(クレジットカードセキュリティコード)、birth certificate number
(出生証明書番号)、train ticket number
(電車の切符番号)、passport expiration date
(パスポート有効期限)、social_security_number
(社会保障番号)などの様々な個人識別情報(PII)を認識することができます。
📚 リンク
- 論文: https://arxiv.org/abs/2311.08526
- リポジトリ: https://github.com/urchade/GLiNER
💻 使用例
基本的な使用法
from gliner import GLiNER
model = GLiNER.from_pretrained("urchade/gliner_multi_pii-v1")
text = """
Harilala Rasoanaivo, un homme d'affaires local d'Antananarivo, a enregistré une nouvelle société nommée "Rasoanaivo Enterprises" au Lot II M 92 Antohomadinika. Son numéro est le +261 32 22 345 67, et son adresse électronique est harilala.rasoanaivo@telma.mg. Il a fourni son numéro de sécu 501-02-1234 pour l'enregistrement.
"""
labels = ["work", "booking number", "personally identifiable information", "driver licence", "person", "book", "full address", "company", "actor", "character", "email", "passport number", "Social Security Number", "phone number"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
出力結果
Harilala Rasoanaivo => person
Rasoanaivo Enterprises => company
Lot II M 92 Antohomadinika => full address
+261 32 22 345 67 => phone number
harilala.rasoanaivo@telma.mg => email
501-02-1234 => Social Security Number
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
属性 |
详情 |
モデルタイプ |
固有表現抽出(NER)モデル |
学習データ |
urchade/synthetic-pii-ner-mistral-v1 |
ライブラリ名 |
gliner |
パイプラインタグ |
トークン分類 |
言語 |
en, fr, de, es, pt, it |