PassGPT-16Characters開源密碼模型 - 免費生成與分析密碼保護你的賬號安全

首頁

Passgpt 16characters

由javirandor開發

基於密碼洩露數據訓練的因果語言模型，用於生成和分析密碼

大型語言模型

Transformers

#密碼洩露數據訓練 #16位字符密碼生成 #非商業研究專用

下載量 455

發布時間 : 6/15/2023

模型概述

PassGPT是基於密碼洩露數據訓練的因果語言模型，主要用於密碼生成和分析。該模型使用RockYou洩露事件中篩選出的最長16位字符密碼進行訓練，優化後效果略有提升。

模型特點

優化的密碼生成

模型經過優化，詞彙表精簡至最具意義的字符集，並進行了訓練微調，生成效果略有提升

安全研究專用

模型僅供研究用途，採用CC BY NC 4.0協議（僅限非商業使用），嚴禁用於攻擊真實系統

定製化tokenizer

採用定製化BertTokenizer將密碼字符逐一代碼化為獨立標記，提高密碼生成效率

模型能力

密碼生成

密碼分析

使用案例

網絡安全研究

密碼強度分析

使用模型生成密碼樣本，分析常見密碼模式和強度

密碼策略評估

通過模型生成密碼，評估不同密碼策略的有效性

🚀 PassGPT

PassGPT是一個基於密碼洩露數據訓練的因果語言模型。該模型首次在這篇論文中被提出。此版本的模型是在過濾了長度最多為16個字符的密碼後，基於RockYou洩露的密碼數據進行訓練的。你還可以在此處訪問基於長度最多為10個字符的密碼訓練的PassGPT，且無其他限制。

這是論文中所報告模型的精選版本。詞彙量被縮減至最有意義的字符，並且訓練過程也進行了輕微優化。使用這些架構後，效果略有提升。

🚀 快速開始

PassGPT是一個基於密碼洩露數據訓練的因果語言模型，可用於密碼生成相關的研究。使用前需申請訪問權限，並確保僅用於非商業研究目的。

✨ 主要特性

特定數據訓練：基於密碼洩露數據進行訓練，如RockYou洩露的密碼。
架構繼承：繼承GPT2LMHeadModel架構，並實現自定義的BertTokenizer。
密碼生成：可使用HuggingFace提供的內置生成方法，以“密碼起始標記”（<s>）為種子生成密碼。

📦 安裝指南

使用前需要生成一個訪問令牌來驗證下載。

💻 使用示例

基礎用法

以下代碼可用於使用PassGPT生成一個密碼：

from transformers import GPT2LMHeadModel
from transformers import RobertaTokenizerFast

tokenizer = RobertaTokenizerFast.from_pretrained("javirandor/passgpt-16characters",
                                                  use_auth_token="YOUR_ACCESS_TOKEN",
                                                  max_len=18,
                                                  padding="max_length", 
                                                  truncation=True,
                                                  do_lower_case=False,
                                                  strip_accents=False,
                                                  mask_token="<mask>",
                                                  unk_token="<unk>",
                                                  pad_token="<pad>",
                                                  truncation_side="right")

model = GPT2LMHeadModel.from_pretrained("javirandor/passgpt-16characters", use_auth_token="YOUR_ACCESS_TOKEN").eval()

NUM_GENERATIONS = 1

# Generate passwords sampling from the beginning of password token
g = model.generate(torch.tensor([[tokenizer.bos_token_id]]),
                  do_sample=True,
                  num_return_sequences=NUM_GENERATIONS,
                  max_length=18,
                  pad_token_id=tokenizer.pad_token_id,
                  bad_words_ids=[[tokenizer.bos_token_id]])

# Remove start of sentence token
g = g[:, 1:]

decoded = tokenizer.batch_decode(g.tolist())
decoded_clean = [i.split("</s>")[0] for i in decoded] # Get content before end of password token

# Print your sampled passwords!
print(decoded_clean)

高級用法

你可以在此處找到一個更靈活的採樣腳本。

📚 詳細文檔

使用和許可聲明

PassGPT僅用於研究目的並按此進行許可。模型和代碼遵循CC BY NC 4.0許可協議（僅允許非商業使用），不得用於研究目的之外的其他用途。此模型絕不能用於攻擊真實系統。訪問需申請，請務必說明項目的詳細信息和範圍。

模型描述

該模型繼承了GPT2LMHeadModel架構，並實現了一個自定義的BertTokenizer，該分詞器將密碼中的每個字符編碼為單個標記，避免合併。它從隨機初始化開始訓練，訓練代碼可在官方倉庫中找到。

密碼生成

可以使用HuggingFace提供的內置生成方法，並以“密碼起始標記”（即<s>）為種子從模型中採樣密碼。

🔧 技術細節

額外的門控字段 | 屬性 | 詳情 | |------|------| | 機構 | 文本輸入 | | 國家 | 文本輸入 | | PassGPT將應用的項目簡要描述 | 文本輸入 | | 對先前研究的引用和/或其他評論 | 文本輸入 | | 我同意僅將此模型用於非商業用途 | 複選框 | | 我同意不使用該模型進行對人類受試者造成傷害的實驗 | 複選框 |
小部件示例
- 示例1：<s>ilov
- 示例2：<s>1234
- 示例3：<s>
- 示例4：<s>admin
管道標籤：文本生成
標籤：密碼、網絡安全

📄 許可證

PassGPT遵循CC BY NC 4.0許可協議，僅允許非商業使用。詳細信息請見許可證鏈接。

📖 引用我們的工作

@article{rando2023passgpt,
  title={PassGPT: Password Modeling and (Guided) Generation with Large Language Models},
  author={Rando, Javier and Perez-Cruz, Fernando and Hitaj, Briland},
  journal={arXiv preprint arXiv:2306.01545},
  year={2023}
}