CodeFuse-13B開源代碼生成模型 - 支持40多種語言，長代碼序列輕鬆處理

首頁

Codefuse 13B

由codefuse-ai開發

CodeFuse-13B是基於GPT-NeoX框架訓練的130億參數代碼生成模型，支持40多種編程語言，能處理長達4096字符的代碼序列。

大型語言模型

Transformers

開源協議:其他 #多語言代碼生成 #長序列處理 #高效微調

下載量 31

發布時間 : 9/7/2023

模型概述

CodeFuse-13B是一個強大的代碼生成模型，經過預訓練和微調，能夠生成高效、準確且合規的代碼。

模型特點

長序列處理

能夠處理長達4096字符的代碼序列。

多語言支持

支持40多種編程語言，覆蓋廣泛的開發需求。

高效微調

在CodeFuse-Evol-instruction-66k數據集上微調，顯著提升生成代碼的質量。

模型能力

代碼生成

代碼補全

多語言代碼支持

使用案例

軟件開發

快速排序算法實現

生成Python實現的快速排序算法代碼。

生成高效且正確的排序算法代碼。

多語言代碼轉換

將一種編程語言的代碼轉換為另一種編程語言。

生成符合目標語言語法和規範的代碼。

🚀 CodeFuse-13B代碼生成模型

CodeFuse-13B是一款強大的代碼生成模型，基於GPT - NeoX框架訓練，能處理長代碼序列，覆蓋超40種編程語言。經過多輪訓練和微調，它生成的代碼準確高效，在HumanEval評測集上表現出色。

[中文] [English]

📚 模型描述

CodeFuse-13B是一個擁有130億參數的代碼生成模型，在GPT - NeoX框架上進行訓練，能夠處理長達4096個字符的代碼序列。該模型在包含1000B token代碼、中文和英文數據的數據集上進行預訓練，涵蓋了超過40種編程語言。為進一步提高生成代碼的有效性和質量，模型在CodeFuse - Evol - instruction - 66k數據集上進行了微調，使其能夠生成更準確、高效且符合要求的代碼。在HumanEval評估集上，採用BeamSearch策略（BeamSize = 3）時，Pass@1達到了37.1%。

👨‍💻 代碼社區

主頁： 🏡 https://github.com/codefuse-ai （請用Star🌟 + Fork🚀 + Watch👀 給予我們支持）

若您想自行微調模型，可訪問 ✨MFTCoder✨✨
若您想自行部署模型，可訪問 ✨FasterTransformer4CodeFuse✨✨
若您想查看模型演示，可訪問 ✨CodeFuse Demo✨✨

📋 要求

Python 3.8 或更高版本。
PyTorch 1.12 或更高版本，推薦 2.0 或更高版本。
Transformers 4.24.0 或更高版本。
建議使用 CUDA 11.4 或更高版本（GPU 用戶和使用 flash - attention 的用戶需考慮此選項）。

🚀 快速開始

基礎用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(("CodeFuse-13B"))
model = AutoModelForCausalLM.from_pretrained(("CodeFuse-13B"), device_map="auto").half().eval()

input_ids = tokenizer.encode("# language: Python\ndef quick_sort(array):\n", return_tensors="pt").to("cuda")
output_ids = model.generate(input_ids, max_new_tokens=200)

print(tokenizer.decode(output_ids[0]))

📄 MD5校驗

我們注意到文件在傳輸過程中可能會損壞，請在使用前檢查 MD5 值。

模型文件	MD5 值
pytorch_model-00001-of-00006.bin	b79e4ccc93c40fa6113aaf6a434473d5
pytorch_model-00002-of-00006.bin	5a82f19e3f62c693e41fe627084c722b
pytorch_model-00003-of-00006.bin	d4b53c391a353d0fc0a1be1c913d5f04
pytorch_model-00004-of-00006.bin	f9e3dcdea13ff02f4e3aad4f9db7a33f
pytorch_model-00005-of-00006.bin	698a8f2f05723a572193733bce12eb93
pytorch_model-00006-of-00006.bin	312439d0b810f1bb81034fe094ff84c7

📚 簡介

CodeFuse-13B是基於GPT - NeoX框架訓練的13B參數代碼生成模型，能夠處理4096個字符的代碼序列。該模型在1000B Token的代碼、中文、英文數據數據集上進行預訓練，覆蓋超過40種編程語言。為了進一步提升生成代碼的效果和質量，該模型還在CodeFuse - Evol - instruction - 66k數據集上進行了微調，使得該模型能夠生成更加準確、高效、符合要求的代碼。在HumanEval評測集上Pass@1達到37.1%（採用BeamSearch解碼，其中BeamSize = 3）。

👨‍💻 代碼社區

大本營： 🏡 https://github.com/codefuse-ai （歡迎為我們的項目一鍵三連 Star🌟 + Fork🚀 + Watch👀）

如果您想自己微調該模型，可以訪問 ✨MFTCoder✨✨
如果您想自己部署該模型，可以訪問 ✨FasterTransformer4CodeFuse✨✨
如果您想觀看該模型示例，可以訪問 ✨CodeFuse Demo✨✨

📋 要求

python 3.8 及以上版本
pytorch 1.12 及以上版本，推薦 2.0 及以上版本
transformers 4.24.0 及以上版本
建議使用CUDA 11.4 及以上（GPU 用戶、flash - attention 用戶等需考慮此選項）。

🚀 快速使用

基礎用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(("CodeFuse-13B"))
model = AutoModelForCausalLM.from_pretrained(("CodeFuse-13B"), device_map="auto").half().eval()

input_ids = tokenizer.encode("# language: Python\ndef quick_sort(array):\n", return_tensors="pt").to("cuda")
output_ids = model.generate(input_ids, max_new_tokens=200)

print(tokenizer.decode(output_ids[0]))

📄 MD5

我們發現模型文件可能會在傳輸過程中損壞，使用前請檢查文件 MD5 值。

模型文件	MD5 值
pytorch_model-00001-of-00006.bin	b79e4ccc93c40fa6113aaf6a434473d5
pytorch_model-00002-of-00006.bin	5a82f19e3f62c693e41fe627084c722b
pytorch_model-00003-of-00006.bin	d4b53c391a353d0fc0a1be1c913d5f04
pytorch_model-00004-of-00006.bin	f9e3dcdea13ff02f4e3aad4f9db7a33f
pytorch_model-00005-of-00006.bin	698a8f2f05723a572193733bce12eb93
pytorch_model-00006-of-00006.bin	312439d0b810f1bb81034fe094ff84c7