codet5p-2b开源代码大语言模型 - 免费支持代码理解与生成任务

首页

Codet5p 2b

由 Salesforce 开发

CodeT5+是一个开源的代码大语言模型家族，支持代码理解与生成任务，采用编码器-解码器架构，可灵活切换不同工作模式。

大型语言模型

Transformers

开源协议:Bsd-3-clause #代码大语言模型 #多编程语言支持 #代码理解与生成

下载量 745

发布时间 : 5/17/2023

模型简介

CodeT5+是一个新型开源代码大语言模型家族，采用编码器-解码器架构，可灵活切换不同工作模式（包括纯编码器、纯解码器和编码解码器），支持广泛的代码理解与生成任务。

模型特点

灵活的工作模式

支持纯编码器、纯解码器和编码解码器三种工作模式，适应不同的代码理解与生成任务。

多样化的预训练任务

通过片段去噪、因果语言建模、对比学习和文本-代码匹配等多种预训练任务，从单模态代码数据和双模态代码-文本数据中学习丰富表征。

计算高效预训练

采用创新的计算高效预训练方法，通过冻结现成大语言模型组件进行高效扩展，支持20亿、60亿、160亿参数规模。

浅编码器-深解码器架构

采用浅编码器-深解码器架构，优化模型性能。

模型能力

代码理解

代码生成

文本-代码检索

行级代码补全

检索增强代码生成

数学编程

使用案例

代码生成

函数补全

根据函数签名自动补全函数体

在HumanEval基准的零样本文本-代码生成任务中表现优异

代码理解

代码检索

根据自然语言描述检索相关代码片段

在8个文本-代码检索任务上平均MRR提升3.2个点

数学编程

数学问题求解

将数学问题转化为可执行代码

在MathQA-Python和GSM8K-Python数学编程任务中表现优异

🚀 CodeT5+ 2B

CodeT5+ 2B是一个强大的代码大语言模型，采用编码器 - 解码器架构，支持多种模式，能有效处理代码理解和生成任务。它在预训练任务和模型初始化方法上进行了创新，在多个代码任务中取得了显著的性能提升。

🚀 快速开始

本模型可以使用AutoModelForSeq2SeqLM轻松加载，并采用与 CodeGen 相同的分词器。

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "Salesforce/codet5p-2b"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint,
                                              torch_dtype=torch.float16,
                                              trust_remote_code=True).to(device)

encoding = tokenizer("def print_hello_world():", return_tensors="pt").to(device)
encoding['decoder_input_ids'] = encoding['input_ids'].clone()
outputs = model.generate(**encoding, max_length=15)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

多模式架构：CodeT5+ 具有编码器 - 解码器架构，可灵活运行于不同模式（即仅编码器、仅解码器和编码器 - 解码器），以支持广泛的代码理解和生成任务。
多样化预训练任务：与原始的 CodeT5 家族相比，CodeT5+ 通过包括 跨度去噪、因果语言建模、对比学习 和 文本 - 代码匹配 等多样化的预训练任务进行预训练，从而从单模态代码数据和双模态代码 - 文本数据中学习丰富的表示。
高效预训练方法：采用简单而有效的 计算高效预训练 方法，使用冻结的现成大语言模型（如 CodeGen）初始化模型组件，以高效扩展模型规模（如 2B、6B、16B），并采用“浅编码器和深解码器”架构。
指令微调：按照 Code Alpaca 进行指令微调，以与自然语言指令对齐。

📦 安装指南

文档中未提及具体安装步骤，可参考 transformers 库的安装方法来安装依赖。

📚 详细文档

模型描述

CodeT5+ 是一个新的开源代码大语言模型家族，相关介绍发表在论文 CodeT5+: Open Code Large Language Models for Code Understanding and Generation 中，作者包括 Yue Wang 等。

预训练数据

本模型检查点在 github-code 数据集的去重版本的更严格许可子集上进行训练。数据预处理时仅保留许可宽松的代码（如“mit” “apache - 2” “bsd - 3 - clause” “bsd - 2 - clause” “cc0 - 1.0” “unlicense” “isc”）。支持的语言共有 9 种，分别为：c、c++、c - sharp、go、java、javascript、php、python、ruby。

训练过程

本检查点从现成的大语言模型初始化，其编码器从 CodeGen - 350M - mono 初始化，解码器从 CodeGen - 2B - mono 初始化。在第一阶段预训练中，它在单模态代码数据上进行训练，包括 跨度去噪 和两种变体的 因果语言建模 等多样化的预训练任务。之后，在 Python 子集上以因果语言建模为目标再训练几个周期，以更好地适应 Python 代码生成。更多详细信息请参考论文。

评估结果

CodeT5+ 模型在各种设置（零样本、微调、指令微调）下的广泛代码理解和生成任务中进行了全面评估。具体而言，与现有最优基线相比，CodeT5+ 在许多下游任务上取得了显著的性能提升，例如：8 个文本到代码检索任务（平均 MRR 提高 3.2）、2 个行级代码补全任务（平均精确匹配提高 2.1）和 2 个检索增强代码生成任务（平均 BLEU - 4 提高 5.8）。在 MathQA - Python 和 GSM8K - Python 上的 2 个数学编程任务中，参数低于 10 亿的 CodeT5+ 模型显著优于许多参数高达 137B 的大语言模型。特别是在 HumanEval 基准的零样本文本到代码生成任务中，InstructCodeT5+ 16B 针对其他开源代码大语言模型创造了新的最优结果，pass@1 为 35.0%，pass@10 为 54.5%，甚至超过了闭源的 OpenAI code - cushman - 001 模型。更多详细信息请参考论文。

🔧 技术细节

CodeT5+ 采用“浅编码器和深解码器”架构，通过多样化的预训练任务和计算高效的预训练方法，从单模态和双模态数据中学习丰富的表示。在初始化时，利用现成的大语言模型进行参数初始化，以提高训练效率和模型性能。

📄 许可证

本项目采用 BSD 3 - 条款许可证（BSD 3 - Clause License）。

📖 引用信息

@article{wang2023codet5plus,
  title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
  author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
  journal={arXiv preprint},
  year={2023}
}

⚠️ 重要提示

本版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游目的而设计或评估。强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的更多指导，请参考我们的 AUP 和 AI AUP。