Granite-20b-code-instruct-8k开源代码生成模型 - 免费使用，精准生成代码并遵循指令

首页

Granite 20b Code Instruct 8k

由 ibm-granite 开发

Granite-20B-Code-Instruct-8K是一个200亿参数的代码生成模型，基于Granite-20B-Code-Base-8K微调而来，专注于代码生成和指令遵循能力。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #多语言代码生成 #指令微调 #编程助手

下载量 824

发布时间 : 4/26/2024

模型简介

该模型设计用于响应与编码相关的指令，可用于构建编码助手，具备逻辑推理和问题解决技能。

模型特点

强大的代码生成能力

在多种编程语言中表现出色，能够生成高质量的代码片段。

指令遵循能力

经过微调以更好地理解和执行复杂的编码指令。

逻辑推理和问题解决

能够处理需要逻辑推理和问题解决的编码任务。

宽松许可

采用Apache 2.0许可证，适合商业和研究用途。

模型能力

代码生成

代码解释

代码修复

多语言编程支持

指令遵循

逻辑推理

问题解决

使用案例

编程辅助

代码生成

根据自然语言描述生成代码片段

在HumanEvalSynthesis测试中，Python pass@1达到60.4%

代码解释

解释现有代码的功能

在HumanEvalExplain测试中，Python pass@1达到44.5%

代码修复

识别并修复代码中的错误

在HumanEvalFix测试中，Python pass@1达到43.9%

教育

编程教学

帮助学生理解和学习编程概念

🚀 Granite-20B-Code-Instruct-8K

Granite-20B-Code-Instruct-8K 是一个具有 200 亿参数的模型，它基于 Granite-20B-Code-Base-8K，在多种 许可宽松 的指令数据上进行微调，以增强指令跟随能力，包括逻辑推理和问题解决能力。

模型信息

属性	详情
模型类型	文本生成
基础模型	ibm-granite/granite-20b-code-base-8k
推理功能	支持
许可证	Apache-2.0
训练数据集	bigcode/commitpackft、TIGER-Lab/MathInstruct、meta-math/MetaMathQA、glaiveai/glaive-code-assistant-v3、glaive-function-calling-v2、bugdaryan/sql-create-context-instruction、garage-bAInd/Open-Platypus、nvidia/HelpSteer
评估指标	code_eval
库名称	transformers
标签	code、granite

模型评估结果

任务类型	数据集名称	pass@1 值
文本生成	HumanEvalSynthesis(Python)	60.4
文本生成	HumanEvalSynthesis(JavaScript)	53.7
文本生成	HumanEvalSynthesis(Java)	58.5
文本生成	HumanEvalSynthesis(Go)	42.1
文本生成	HumanEvalSynthesis(C++)	45.7
文本生成	HumanEvalSynthesis(Rust)	42.7
文本生成	HumanEvalExplain(Python)	44.5
文本生成	HumanEvalExplain(JavaScript)	42.7
文本生成	HumanEvalExplain(Java)	49.4
文本生成	HumanEvalExplain(Go)	32.3
文本生成	HumanEvalExplain(C++)	42.1
文本生成	HumanEvalExplain(Rust)	18.3
文本生成	HumanEvalFix(Python)	43.9
文本生成	HumanEvalFix(JavaScript)	43.9
文本生成	HumanEvalFix(Java)	45.7
文本生成	HumanEvalFix(Go)	41.5
文本生成	HumanEvalFix(C++)	41.5
文本生成	HumanEvalFix(Rust)	29.9

image/png

🚀 快速开始

模型概述

开发者：IBM Research
GitHub 仓库：ibm-granite/granite-code-models
论文：Granite Code Models: A Family of Open Foundation Models for Code Intelligence
发布日期：2024 年 5 月 6 日
许可证：Apache 2.0

使用说明

预期用途

该模型旨在响应与编码相关的指令，可用于构建编码助手。

生成示例

以下是一个如何使用 Granite-20B-Code-Instruct-8K 模型的简单示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # or "cpu"
model_path = "ibm-granite/granite-20b-code-instruct-8k"
tokenizer = AutoTokenizer.from_pretrained(model_path)
# drop device_map if running on CPU
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
# change input text as desired
chat = [
    { "role": "user", "content": "Write a code to find the maximum value in a list of numbers." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
# tokenize the text
input_tokens = tokenizer(chat, return_tensors="pt")
# transfer tokenized inputs to the device
for i in input_tokens:
    input_tokens[i] = input_tokens[i].to(device)
# generate output tokens
output = model.generate(**input_tokens, max_new_tokens=100)
# decode output tokens into text
output = tokenizer.batch_decode(output)
# loop over the batch to print, in this example the batch size is 1
for i in output:
    print(i)

✨ 主要特性

该模型基于 Granite-20B-Code-Base-8K 进行微调，在多种许可宽松的指令数据上训练，增强了指令跟随能力，包括逻辑推理和问题解决能力。

📦 训练数据

Granite Code Instruct 模型在以下类型的数据上进行训练：

代码提交数据集：我们从 CommitPackFT 数据集获取代码提交数据，这是完整 CommitPack 数据集的过滤版本。从 CommitPackFT 数据集中，我们仅考虑 92 种编程语言的数据。我们的选择标准归结为选择 CommitPackFT 中常见的编程语言，以及我们用于预训练代码基础模型（Granite-20B-Code-Base）的 116 种语言。
数学数据集：我们考虑了两个高质量的数学数据集，MathInstruct 和 MetaMathQA。由于许可问题，我们从 MathInstruct 数据集中过滤掉了 GSM8K-RFT 和 Camel-Math。
代码指令数据集：我们使用 Glaive-Code-Assistant-v3、Glaive-Function-Calling-v2、NL2SQL11 和一小部分合成 API 调用数据集。
语言指令数据集：我们纳入了高质量的数据集，如 HelpSteer 和 Platypus 的开放许可过滤版本。我们还包括了一组硬编码提示，以确保我们的模型在收到关于其名称或开发者的询问时能生成正确的输出。

🔧 技术细节

我们使用 IBM 的两个超级计算集群 Vela 和 Blue Vela 来训练 Granite Code 模型，这两个集群分别配备了 NVIDIA A100 和 H100 GPU。这些集群为我们在数千个 GPU 上训练模型提供了可扩展且高效的基础设施。

📄 许可证

本模型采用 Apache 2.0 许可证。

⚠️ 重要提示

Granite 代码指令模型主要使用特定编程语言的指令 - 响应对进行微调。因此，它们在处理领域外编程语言时的性能可能会受到限制。在这种情况下，提供少量示例有助于引导模型输出。此外，开发者在将这些模型部署到关键应用程序之前，应进行安全测试和特定目标的调优。该模型还继承了其基础模型的伦理考量和局限性。更多信息，请参考 Granite-20B-Code-Base-8K 模型卡片。