S

Starpii

bigcodeによって開発
コードデータセット内の個人識別可能情報(PII)を検出するNERモデルで、氏名、メールアドレス、キー、パスワード、IPアドレス、ユーザー名など6種類のPIIを識別可能
ダウンロード数 2,484
リリース時間 : 4/23/2023

モデル概要

このモデルはbigcode-encoderをファインチューニングしており、コードデータから個人識別可能情報(PII)を識別・除去するために特別に設計されています。複数のプログラミング言語をサポート

モデル特徴

擬似ラベル強化トレーニング
最初に擬似ラベルデータセットで事前学習し、その後注釈付きデータで微調整することで、キーなどの希少なPIIエンティティの認識性能を大幅に向上
多カテゴリPII検出
6種類のPIIを識別可能: 氏名、メールアドレス、キー、パスワード、IPアドレス、ユーザー名
インテリジェント後処理
短いキーや不完全な氏名、無効なIPなどを無視するなど、複数の後処理ルールを含み、誤検出を低減
多プログラミング言語サポート
88のプログラミング言語で事前学習されたエンコーダーを基に、31言語のPIIデータで微調整

モデル能力

コード内PII検出
多カテゴリエンティティ認識
クロスランゲージPII識別

使用事例

データプライバシー保護
コードリポジトリPIIクリーンアップ
AIモデル訓練前にコードリポジトリ内の機密情報をクリーンアップ
コード内のPIIを効果的に識別・除去し、データ漏洩リスクを低減
オープンソースプロジェクト監査
オープンソースコードに機密情報が含まれていないかチェック
開発者が誤ってコミットしたPIIを発見・除去するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase