genji-python-6B-split开源模型 - 免费助力Python编程代码生成与辅助！

首页

Genji Python 6B Split

由 baffo32 开发

基于GPT-J 6B微调的Python代码生成模型，专注于Python编程辅助

大型语言模型

Transformers

英语开源协议:Apache-2.0 #Python代码生成 #6B参数大模型 #旋转位置编码

下载量 16

发布时间 : 3/2/2022

模型简介

Genji-python-6B是基于GPT-J 6B模型微调而成的Transformer模型，专门针对Python代码生成任务进行了优化训练。该模型能够辅助Python代码编写，支持代码补全和生成功能。

模型特点

Python代码专注

使用约4GB Python代码数据进行微调，专门优化了Python代码生成能力

分片检查点

通过拆分模型检查点，显著降低了加载时的内存占用并加速了加载过程

旋转位置编码

采用RoPE(Rotary Position Embedding)位置编码，增强了长序列建模能力

高效推理

支持FP16精度，可在16GB显存的显卡上运行

模型能力

Python代码补全

Python函数生成

代码文档生成

代码结构预测

使用案例

编程辅助

函数自动补全

根据函数名开头自动补全完整函数实现

示例中成功生成了包含文档字符串和逻辑的完整函数

代码重构

根据已有代码片段生成更优化的实现

教育

编程学习辅助

帮助学习者理解Python编程模式和最佳实践

🚀 Genji-python 6B

Genji-python 6B 是一个经过微调的变压器模型，专门用于辅助编写 Python 代码。它基于 EleutherAI 的 GPT - J 6B 模型，在近 4GB 的 Python 代码上进行训练。通过 Colab 笔记本，你可以轻松使用该模型。

🚀 快速开始

若要使用该模型，你可以查看我们的 Colab 笔记本： Notebook

✨ 主要特性

基于 EleutherAI 的 GPT - J 6B 模型微调，专注于 Python 代码。
拆分模型的检查点，加载时使用更少系统内存，加载速度更快。

📦 安装指南

此模型目前仅可通过我们的分叉仓库使用，因为 GPT - J 尚未合并到主 transformers 仓库。待合并后，我们会让该模型更易于加载。

步骤 1：安装分叉仓库

使用 pip 安装：

pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3-rp-b

步骤 2：安装 git - lfs

在 Ubuntu 上：

apt install git-lfs

安装完成后，初始化 git - lfs：

git lfs install

步骤 3：克隆仓库

git clone https://huggingface.co/NovelAI/genji-python-6B-split

💻 使用示例

基础用法

我们建议以 FP16 格式使用该模型，这样它可以适配 16GB VRAM 的显卡。

from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    GPTNeoForCausalLM,
)

model = AutoModelForCausalLM.from_pretrained("genji-python-6B-split/model").half().eval().cuda()
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-2.7B")

text = '''def print_customer_name'''

tokens = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(tokens.long().cuda(), use_cache=True, do_sample=True, top_k=50, temperature=0.3, top_p=0.9, repetition_penalty=1.125, min_length=1, max_length=len(tokens[0]) + 400, pad_token_id=tokenizer.eos_token_id)
last_tokens = generated_tokens[0][len(tokens[0]):]
generated_text = tokenizer.decode(last_tokens)
print("Generation:\n" + generated_text)

运行上述代码会生成以下结果：

Prompt:
def print_customer_name
Generation:
(self, customer):
        """Print the name of a customer."""
        if not self.is_valid():
            return

        print("Customer: {}".format(customer))

高级用法

你也可以通过我们的 Colab 笔记本查看更多使用示例： Notebook

📚 详细文档

模型描述

Genji 是在 EleutherAI 的 GPT - J 6B 模型上微调的变压器模型。此特定模型仅在大小接近 4GB 的 Python 代码上进行训练。拆分模型的检查点已拆分，这使得加载时使用更少的系统 RAM，并且加载速度更快。不过，该模型的设置需要更多工作，因为你需要安装 git - lfs 并拉取仓库。

属性

详情

模型类型

基于 EleutherAI 的 GPT - J 6B 微调的变压器模型

训练数据

来自 Pile 的 Python 代码

超参数

n_parameters	6,053,381,344
n_layers	28*
d_model	4,096
d_ff	16,384
n_heads	16
d_head	256
n_ctx	2,048
n_vocab	50,400（与 GPT - 2/3 使用相同的分词器）
位置编码	旋转位置编码 (RoPE)
RoPE 维度	64