CodeFuse-13B开源代码生成模型 - 支持40多种语言，长代码序列轻松处理

首页

Codefuse 13B

由 codefuse-ai 开发

CodeFuse-13B是基于GPT-NeoX框架训练的130亿参数代码生成模型，支持40多种编程语言，能处理长达4096字符的代码序列。

大型语言模型

Transformers

开源协议:其他 #多语言代码生成 #长序列处理 #高效微调

下载量 31

发布时间 : 9/7/2023

模型简介

CodeFuse-13B是一个强大的代码生成模型，经过预训练和微调，能够生成高效、准确且合规的代码。

模型特点

长序列处理

能够处理长达4096字符的代码序列。

多语言支持

支持40多种编程语言，覆盖广泛的开发需求。

高效微调

在CodeFuse-Evol-instruction-66k数据集上微调，显著提升生成代码的质量。

模型能力

代码生成

代码补全

多语言代码支持

使用案例

软件开发

快速排序算法实现

生成Python实现的快速排序算法代码。

生成高效且正确的排序算法代码。

多语言代码转换

将一种编程语言的代码转换为另一种编程语言。

生成符合目标语言语法和规范的代码。

🚀 CodeFuse-13B代码生成模型

CodeFuse-13B是一款强大的代码生成模型，基于GPT - NeoX框架训练，能处理长代码序列，覆盖超40种编程语言。经过多轮训练和微调，它生成的代码准确高效，在HumanEval评测集上表现出色。

[中文] [English]

📚 模型描述

CodeFuse-13B是一个拥有130亿参数的代码生成模型，在GPT - NeoX框架上进行训练，能够处理长达4096个字符的代码序列。该模型在包含1000B token代码、中文和英文数据的数据集上进行预训练，涵盖了超过40种编程语言。为进一步提高生成代码的有效性和质量，模型在CodeFuse - Evol - instruction - 66k数据集上进行了微调，使其能够生成更准确、高效且符合要求的代码。在HumanEval评估集上，采用BeamSearch策略（BeamSize = 3）时，Pass@1达到了37.1%。

👨‍💻 代码社区

主页： 🏡 https://github.com/codefuse-ai （请用Star🌟 + Fork🚀 + Watch👀 给予我们支持）

若您想自行微调模型，可访问 ✨MFTCoder✨✨
若您想自行部署模型，可访问 ✨FasterTransformer4CodeFuse✨✨
若您想查看模型演示，可访问 ✨CodeFuse Demo✨✨

📋 要求

Python 3.8 或更高版本。
PyTorch 1.12 或更高版本，推荐 2.0 或更高版本。
Transformers 4.24.0 或更高版本。
建议使用 CUDA 11.4 或更高版本（GPU 用户和使用 flash - attention 的用户需考虑此选项）。

🚀 快速开始

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(("CodeFuse-13B"))
model = AutoModelForCausalLM.from_pretrained(("CodeFuse-13B"), device_map="auto").half().eval()

input_ids = tokenizer.encode("# language: Python\ndef quick_sort(array):\n", return_tensors="pt").to("cuda")
output_ids = model.generate(input_ids, max_new_tokens=200)

print(tokenizer.decode(output_ids[0]))

📄 MD5校验

我们注意到文件在传输过程中可能会损坏，请在使用前检查 MD5 值。

模型文件	MD5 值
pytorch_model-00001-of-00006.bin	b79e4ccc93c40fa6113aaf6a434473d5
pytorch_model-00002-of-00006.bin	5a82f19e3f62c693e41fe627084c722b
pytorch_model-00003-of-00006.bin	d4b53c391a353d0fc0a1be1c913d5f04
pytorch_model-00004-of-00006.bin	f9e3dcdea13ff02f4e3aad4f9db7a33f
pytorch_model-00005-of-00006.bin	698a8f2f05723a572193733bce12eb93
pytorch_model-00006-of-00006.bin	312439d0b810f1bb81034fe094ff84c7

📚 简介

CodeFuse-13B是基于GPT - NeoX框架训练的13B参数代码生成模型，能够处理4096个字符的代码序列。该模型在1000B Token的代码、中文、英文数据数据集上进行预训练，覆盖超过40种编程语言。为了进一步提升生成代码的效果和质量，该模型还在CodeFuse - Evol - instruction - 66k数据集上进行了微调，使得该模型能够生成更加准确、高效、符合要求的代码。在HumanEval评测集上Pass@1达到37.1%（采用BeamSearch解码，其中BeamSize = 3）。

👨‍💻 代码社区

大本营： 🏡 https://github.com/codefuse-ai （欢迎为我们的项目一键三连 Star🌟 + Fork🚀 + Watch👀）

如果您想自己微调该模型，可以访问 ✨MFTCoder✨✨
如果您想自己部署该模型，可以访问 ✨FasterTransformer4CodeFuse✨✨
如果您想观看该模型示例，可以访问 ✨CodeFuse Demo✨✨

📋 要求

python 3.8 及以上版本
pytorch 1.12 及以上版本，推荐 2.0 及以上版本
transformers 4.24.0 及以上版本
建议使用CUDA 11.4 及以上（GPU 用户、flash - attention 用户等需考虑此选项）。

🚀 快速使用

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(("CodeFuse-13B"))
model = AutoModelForCausalLM.from_pretrained(("CodeFuse-13B"), device_map="auto").half().eval()

input_ids = tokenizer.encode("# language: Python\ndef quick_sort(array):\n", return_tensors="pt").to("cuda")
output_ids = model.generate(input_ids, max_new_tokens=200)

print(tokenizer.decode(output_ids[0]))

📄 MD5

我们发现模型文件可能会在传输过程中损坏，使用前请检查文件 MD5 值。

模型文件	MD5 值
pytorch_model-00001-of-00006.bin	b79e4ccc93c40fa6113aaf6a434473d5
pytorch_model-00002-of-00006.bin	5a82f19e3f62c693e41fe627084c722b
pytorch_model-00003-of-00006.bin	d4b53c391a353d0fc0a1be1c913d5f04
pytorch_model-00004-of-00006.bin	f9e3dcdea13ff02f4e3aad4f9db7a33f
pytorch_model-00005-of-00006.bin	698a8f2f05723a572193733bce12eb93
pytorch_model-00006-of-00006.bin	312439d0b810f1bb81034fe094ff84c7