PassGPT - 16文字のオープンソースパスワードモデル - 無料でパスワードを生成・分析し、あなたのアカウントセキュリティを守ります

ホーム

Passgpt 16characters

javirandorによって開発

パスワード漏洩データに基づいてトレーニングされた因果言語モデルで、パスワードの生成と分析に使用されます

大規模言語モデル

Transformers

#パスワード漏洩データトレーニング #16文字パスワード生成 #非商用研究専用

ダウンロード数 455

リリース時間 : 6/15/2023

モデル概要

PassGPTはパスワード漏洩データに基づいてトレーニングされた因果言語モデルで、主にパスワードの生成と分析に使用されます。このモデルはRockYou漏洩事件から抽出された最大16文字のパスワードを使用してトレーニングされ、最適化により効果が若干向上しています。

モデル特徴

最適化されたパスワード生成

モデルは最適化され、語彙は最も意味のある文字セットに簡素化され、トレーニングの微調整が行われ、生成効果が若干向上しています

セキュリティ研究専用

モデルは研究目的のみで使用され、CC BY NC 4.0ライセンス（非商用利用のみ）を採用しており、実際のシステムへの攻撃に使用することは厳禁です

カスタマイズされたtokenizer

カスタマイズされたBertTokenizerを使用してパスワード文字を個別のトークンにコード化し、パスワード生成の効率を向上させます

モデル能力

パスワード生成

パスワード分析

使用事例

サイバーセキュリティ研究

パスワード強度分析

モデルを使用してパスワードサンプルを生成し、一般的なパスワードパターンと強度を分析します

パスワードポリシー評価

モデルを通じてパスワードを生成し、さまざまなパスワードポリシーの有効性を評価します

🚀 PassGPT

PassGPTは、パスワードの漏洩データを使って学習された因果言語モデルです。このモデルは、この論文で初めて紹介されました。このバージョンのモデルは、RockYouの漏洩データから最大16文字のパスワードをフィルタリングしたものを使って学習されています。また、最大10文字のパスワードで学習されたPassGPTには、制限なくこちらからアクセスできます。

これは論文で報告されたモデルの精選版です。語彙サイズは最も意味のある文字に絞られ、学習も若干最適化されています。これらのアーキテクチャでは、結果が若干良くなります。

🚀 クイックスタート

このセクションでは、PassGPTの基本的な使い方や必要な情報を紹介します。

✨ 主な機能

パスワードの漏洩データを使った因果言語モデル。
最大16文字のパスワードを生成可能。
学習データやアーキテクチャの最適化により、性能向上。

📦 インストール

このモデルを使用するには、以下のライブラリが必要です。

from transformers import GPT2LMHeadModel
from transformers import RobertaTokenizerFast

💻 使用例

基本的な使用法

# このコードを使用すると、PassGPTで1つのパスワードを生成できます。
# ダウンロードを認証するために、[アクセストークン](https://huggingface.co/docs/hub/security-tokens)を生成する必要がある場合があります。
from transformers import GPT2LMHeadModel
from transformers import RobertaTokenizerFast

tokenizer = RobertaTokenizerFast.from_pretrained("javirandor/passgpt-16characters",
                                                  use_auth_token="YOUR_ACCESS_TOKEN",
                                                  max_len=18,
                                                  padding="max_length", 
                                                  truncation=True,
                                                  do_lower_case=False,
                                                  strip_accents=False,
                                                  mask_token="<mask>",
                                                  unk_token="<unk>",
                                                  pad_token="<pad>",
                                                  truncation_side="right")

model = GPT2LMHeadModel.from_pretrained("javirandor/passgpt-16characters", use_auth_token="YOUR_ACCESS_TOKEN").eval()

NUM_GENERATIONS = 1

# Generate passwords sampling from the beginning of password token
g = model.generate(torch.tensor([[tokenizer.bos_token_id]]),
                  do_sample=True,
                  num_return_sequences=NUM_GENERATIONS,
                  max_length=18,
                  pad_token_id=tokenizer.pad_token_id,
                  bad_words_ids=[[tokenizer.bos_token_id]])

# Remove start of sentence token
g = g[:, 1:]

decoded = tokenizer.batch_decode(g.tolist())
decoded_clean = [i.split("</s>")[0] for i in decoded] # Get content before end of password token

# Print your sampled passwords!
print(decoded_clean)

高度な使用法

より柔軟なパスワード生成スクリプトは、こちらから入手できます。

📚 ドキュメント

モデルの説明

このモデルは、GPT2LMHeadModelアーキテクチャを継承し、カスタムのBertTokenizerを実装しています。このトークナイザーは、パスワードの各文字を単一のトークンとしてエンコードし、マージを回避します。モデルはランダムな初期化から学習され、学習コードは公式リポジトリにあります。

パスワード生成

パスワードは、HuggingFaceが提供する組み込みの生成メソッドを使用し、「パスワードの開始トークン」（例：<s>）をシードとしてモデルからサンプリングできます。

🔧 技術詳細

モデルアーキテクチャ：GPT2LMHeadModel
トークナイザー：BertTokenizer
学習データ：RockYouの漏洩データから最大16文字のパスワード
学習コード：公式リポジトリ

📄 ライセンス

PassGPTは、研究目的のみを意図し、その使用が許可されています。モデルとコードはCC BY NC 4.0（非商用利用のみ許可）であり、研究目的以外で使用してはなりません。このモデルは、決して実際のシステムを攻撃するために使用してはなりません。要求に応じてアクセスが許可されます。プロジェクトの詳細と範囲を必ず明記してください。

📚 引用

@article{rando2023passgpt,
  title={PassGPT: Password Modeling and (Guided) Generation with Large Language Models},
  author={Rando, Javier and Perez-Cruz, Fernando and Hitaj, Briland},
  journal={arXiv preprint arXiv:2306.01545},
  year={2023}
}