codegen-6B-mono开源代码生成模型 - 免费助力Python程序开发合成

首页

Codegen 6B Mono

由 Salesforce 开发

CodeGen是用于程序合成的自回归语言模型系列，CodeGen-Mono 6B是基于Python编程语言数据集进一步预训练的6B参数模型。

大型语言模型

Transformers

开源协议:Bsd-3-clause #Python代码生成 #自回归编程 #大参数模型

下载量 600

发布时间 : 4/13/2022

模型简介

CodeGen-Mono 6B是一个专注于程序合成的语言模型，能够根据自然语言提示生成可执行代码，特别适合Python编程任务。

模型特点

Python专用预训练

在BigPython数据集（717亿Python标记）上进行了专门预训练，优化了Python代码生成能力

自回归生成

采用自回归方式生成代码，能够根据部分代码或自然语言提示补全完整程序

大规模训练

使用Google TPU-v4-512集群进行大规模并行训练

模型能力

Python代码生成

代码补全

程序合成

使用案例

软件开发

根据注释生成函数

根据自然语言注释描述自动生成完整的Python函数实现

在HumanEval和MTPB等基准测试上表现良好

代码补全

根据部分代码片段自动补全完整实现

🚀 CodeGen (CodeGen-Mono 6B)

CodeGen是一系列用于程序合成的自回归语言模型，能有效解决程序代码生成的问题，为开发者提供便捷的代码生成方案。

🚀 快速开始

此模型可使用AutoModelForCausalLM轻松加载：

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-6B-mono")
model = AutoModelForCausalLM.from_pretrained("Salesforce/codegen-6B-mono")

text = "def hello_world():"
input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

✨ 主要特性

CodeGen是用于程序合成的自回归语言模型家族，源自论文 A Conversational Paradigm for Program Synthesis。
模型最初在此仓库发布，有3种预训练数据变体（NL、Multi、Mono）和4种模型大小变体（350M、2B、6B、16B）。
本仓库包含的检查点在论文中表示为CodeGen-Mono 6B，“Mono” 表示该模型用 CodeGen-Multi 6B 初始化，并在Python编程语言数据集上进一步预训练；“6B” 指可训练参数的数量。
作为自回归语言模型，CodeGen能够从给定的自然语言和编程语言文本中提取特征，并计算其可能性。该模型专为程序合成设计，即根据英文提示生成可执行代码，提示应采用注释字符串的形式，也能完成部分生成的代码。

📚 详细文档

模型描述

CodeGen是一系列用于程序合成的自回归语言模型，来自Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiong撰写的论文 A Conversational Paradigm for Program Synthesis。模型最初在此仓库发布，有3种预训练数据变体（NL、Multi、Mono）和4种模型大小变体（350M、2B、6B、16B）。

本仓库包含的检查点在论文中表示为CodeGen-Mono 6B，“Mono” 表示该模型用 CodeGen-Multi 6B 初始化，并在Python编程语言数据集上进一步预训练；“6B” 指可训练参数的数量。

训练数据

此检查点（CodeGen-Mono 6B）首先用 CodeGen-Multi 6B 初始化，然后在BigPython数据集上进行预训练。该数据包含717亿个Python编程语言的标记。更多详细信息请参阅论文的第2.1节。

训练过程

CodeGen使用交叉熵损失进行训练，以最大化序列输入的可能性。该系列模型由Google使用多个TPU - v4 - 512进行训练，利用了数据和模型并行性。更多详细信息请参阅论文的第2.3节。

评估结果

我们在两个代码生成基准测试（HumanEval和MTPB）上评估了我们的模型。更多详细信息请参阅论文。

预期用途和限制

作为自回归语言模型，CodeGen能够从给定的自然语言和编程语言文本中提取特征，并计算其可能性。然而，该模型专为程序合成设计，即根据英文提示生成可执行代码，提示应采用注释字符串的形式，也能完成部分生成的代码。

伦理考量

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途设计或评估。我们强烈建议用户在部署此模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能严重影响人们生活、权利或安全的高风险场景中。有关用例的进一步指导，请参阅我们的AUP和AI AUP。

BibTeX引用和引用信息

@article{Nijkamp2022ACP,
  title={A Conversational Paradigm for Program Synthesis},
  author={Nijkamp, Erik and Pang, Bo and Hayashi, Hiroaki and Tu, Lifu and Wang, Huan and Zhou, Yingbo and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint},
  year={2022}
}