PassGPT-16Characters开源密码模型 - 免费生成与分析密码保护你的账号安全

首页

Passgpt 16characters

由 javirandor 开发

基于密码泄露数据训练的因果语言模型，用于生成和分析密码

大型语言模型

Transformers

#密码泄露数据训练 #16位字符密码生成 #非商业研究专用

下载量 455

发布时间 : 6/15/2023

模型简介

PassGPT是基于密码泄露数据训练的因果语言模型，主要用于密码生成和分析。该模型使用RockYou泄露事件中筛选出的最长16位字符密码进行训练，优化后效果略有提升。

模型特点

优化的密码生成

模型经过优化，词汇表精简至最具意义的字符集，并进行了训练微调，生成效果略有提升

安全研究专用

模型仅供研究用途，采用CC BY NC 4.0协议（仅限非商业使用），严禁用于攻击真实系统

定制化tokenizer

采用定制化BertTokenizer将密码字符逐一代码化为独立标记，提高密码生成效率

模型能力

密码生成

密码分析

使用案例

网络安全研究

密码强度分析

使用模型生成密码样本，分析常见密码模式和强度

密码策略评估

通过模型生成密码，评估不同密码策略的有效性

🚀 PassGPT

PassGPT是一个基于密码泄露数据训练的因果语言模型。该模型首次在这篇论文中被提出。此版本的模型是在过滤了长度最多为16个字符的密码后，基于RockYou泄露的密码数据进行训练的。你还可以在此处访问基于长度最多为10个字符的密码训练的PassGPT，且无其他限制。

这是论文中所报告模型的精选版本。词汇量被缩减至最有意义的字符，并且训练过程也进行了轻微优化。使用这些架构后，效果略有提升。

🚀 快速开始

PassGPT是一个基于密码泄露数据训练的因果语言模型，可用于密码生成相关的研究。使用前需申请访问权限，并确保仅用于非商业研究目的。

✨ 主要特性

特定数据训练：基于密码泄露数据进行训练，如RockYou泄露的密码。
架构继承：继承GPT2LMHeadModel架构，并实现自定义的BertTokenizer。
密码生成：可使用HuggingFace提供的内置生成方法，以“密码起始标记”（<s>）为种子生成密码。

📦 安装指南

使用前需要生成一个访问令牌来验证下载。

💻 使用示例

基础用法

以下代码可用于使用PassGPT生成一个密码：

from transformers import GPT2LMHeadModel
from transformers import RobertaTokenizerFast

tokenizer = RobertaTokenizerFast.from_pretrained("javirandor/passgpt-16characters",
                                                  use_auth_token="YOUR_ACCESS_TOKEN",
                                                  max_len=18,
                                                  padding="max_length", 
                                                  truncation=True,
                                                  do_lower_case=False,
                                                  strip_accents=False,
                                                  mask_token="<mask>",
                                                  unk_token="<unk>",
                                                  pad_token="<pad>",
                                                  truncation_side="right")

model = GPT2LMHeadModel.from_pretrained("javirandor/passgpt-16characters", use_auth_token="YOUR_ACCESS_TOKEN").eval()

NUM_GENERATIONS = 1

# Generate passwords sampling from the beginning of password token
g = model.generate(torch.tensor([[tokenizer.bos_token_id]]),
                  do_sample=True,
                  num_return_sequences=NUM_GENERATIONS,
                  max_length=18,
                  pad_token_id=tokenizer.pad_token_id,
                  bad_words_ids=[[tokenizer.bos_token_id]])

# Remove start of sentence token
g = g[:, 1:]

decoded = tokenizer.batch_decode(g.tolist())
decoded_clean = [i.split("</s>")[0] for i in decoded] # Get content before end of password token

# Print your sampled passwords!
print(decoded_clean)

高级用法

你可以在此处找到一个更灵活的采样脚本。

📚 详细文档

使用和许可声明

PassGPT仅用于研究目的并按此进行许可。模型和代码遵循CC BY NC 4.0许可协议（仅允许非商业使用），不得用于研究目的之外的其他用途。此模型绝不能用于攻击真实系统。访问需申请，请务必说明项目的详细信息和范围。

模型描述

该模型继承了GPT2LMHeadModel架构，并实现了一个自定义的BertTokenizer，该分词器将密码中的每个字符编码为单个标记，避免合并。它从随机初始化开始训练，训练代码可在官方仓库中找到。

密码生成

可以使用HuggingFace提供的内置生成方法，并以“密码起始标记”（即<s>）为种子从模型中采样密码。

🔧 技术细节

额外的门控字段 | 属性 | 详情 | |------|------| | 机构 | 文本输入 | | 国家 | 文本输入 | | PassGPT将应用的项目简要描述 | 文本输入 | | 对先前研究的引用和/或其他评论 | 文本输入 | | 我同意仅将此模型用于非商业用途 | 复选框 | | 我同意不使用该模型进行对人类受试者造成伤害的实验 | 复选框 |
小部件示例
- 示例1：<s>ilov
- 示例2：<s>1234
- 示例3：<s>
- 示例4：<s>admin
管道标签：文本生成
标签：密码、网络安全

📄 许可证

PassGPT遵循CC BY NC 4.0许可协议，仅允许非商业使用。详细信息请见许可证链接。

📖 引用我们的工作

@article{rando2023passgpt,
  title={PassGPT: Password Modeling and (Guided) Generation with Large Language Models},
  author={Rando, Javier and Perez-Cruz, Fernando and Hitaj, Briland},
  journal={arXiv preprint arXiv:2306.01545},
  year={2023}
}