Granite-3B-Code-Instruct-128K开源编码模型 - 免费部署助力各类编码任务

首页

Granite 3b Code Instruct 128k

由 ibm-granite 开发

Granite-3B-Code-Instruct-128K 是一个拥有30亿参数的长上下文指令模型，基于Granite-3B-Code-Base-128K微调而来，专注于编码相关任务。

大型语言模型

Transformers

开源协议:Apache-2.0 #长上下文代码生成 #多编程语言支持 #代码指令微调

下载量 1,516

发布时间 : 7/12/2024

模型简介

该模型设计用于响应长达128K长度的长上下文输入中的编码相关指令，可用于构建编码助手。结合了短上下文和长上下文数据训练，增强其长上下文能力。

模型特点

长上下文支持

支持长达128K token的上下文长度，适合处理大型代码库和复杂编程任务

代码指令优化

专门针对编码相关指令进行优化，能够理解并生成高质量的代码

多语言支持

支持多种编程语言，包括Python、C++、Java、TypeScript和Rust等

高性能推理

在多个代码生成基准测试中表现优异，如HumanEval和RepoQA

模型能力

代码生成

代码解释

代码修复

长上下文代码理解

多轮代码交互

API调用生成

使用案例

编程辅助

代码自动补全

根据上下文自动生成代码片段

提高开发效率

代码解释

解释复杂代码的功能和逻辑

帮助开发者理解代码

代码调试

识别并修复代码中的错误

提高代码质量

教育

编程教学

生成教学示例和练习题

辅助编程学习

🚀 Granite-3B-Code-Instruct-128K

Granite-3B-Code-Instruct-128K 是一个具有 30 亿参数的长上下文指令模型。它基于 Granite-3B-Code-Base-128K 进行微调，训练数据不仅包含了用于训练原始 Granite 代码指令模型的 许可数据，还加入了专门为解决长上下文问题而合成生成的代码指令数据集。通过让模型接触短上下文和长上下文数据，旨在提升其长上下文处理能力，同时不牺牲短输入上下文下的代码生成性能。

🚀 快速开始

预期用途

该模型旨在对长达 128K 的长上下文输入中的编码相关指令做出响应，可用于构建编码助手。

生成示例

以下是一个如何使用 Granite-3B-Code-Instruct 模型的简单示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # or "cpu"
model_path = "ibm-granite/granite-3b-code-instruct-128k"
tokenizer = AutoTokenizer.from_pretrained(model_path)
# drop device_map if running on CPU
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
# change input text as desired
chat = [
    { "role": "user", "content": "Write a code to find the maximum value in a list of numbers." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
# tokenize the text
input_tokens = tokenizer(chat, return_tensors="pt")
# transfer tokenized inputs to the device
for i in input_tokens:
    input_tokens[i] = input_tokens[i].to(device)
# generate output tokens
output = model.generate(**input_tokens, max_new_tokens=100)
# decode output tokens into text
output = tokenizer.batch_decode(output)
# loop over the batch to print, in this example the batch size is 1
for i in output:
    print(i)

✨ 主要特性

长上下文处理能力：能够处理长达 128K 的输入，有效应对长上下文编码指令。
代码生成性能：在短输入上下文下也能保持良好的代码生成性能。

📦 模型信息

属性	详情
模型类型	text-generation
训练数据集	bigcode/commitpackft、TIGER-Lab/MathInstruct、meta-math/MetaMathQA、glaiveai/glaive-code-assistant-v3、glaive-function-calling-v2、bugdaryan/sql-create-context-instruction、garage-bAInd/Open-Platypus、nvidia/HelpSteer、bigcode/self-oss-instruct-sc2-exec-filter-50k
评估指标	code_eval
库名称	transformers
标签	code、granite
开发者	IBM Research
GitHub 仓库	ibm-granite/granite-code-models
论文	Scaling Granite Code Models to 128K Context
发布日期	2024 年 7 月 18 日
许可证	Apache 2.0

📚 详细文档

训练数据

Granite 代码指令模型在短上下文和长上下文数据的混合数据上进行训练，具体如下：

短上下文指令数据：CommitPackFT、BigCode-SC2-Instruct、MathInstruct、MetaMathQA、Glaive-Code-Assistant-v3、Glaive-Function-Calling-v2、NL2SQL11、HelpSteer、OpenPlatypus，其中包括一个用于 API 调用和具有执行反馈的多轮代码交互的合成生成数据集。此外，还包含了一组硬编码提示，以确保模型在收到关于其名称或开发者的询问时能生成正确的输出。
长上下文指令数据：通过 Granite-8b-Code-Instruct 对仓库级文件打包文档进行自举生成的合成数据集，以提高模型的长上下文处理能力。

基础设施

IBM 使用两个超级计算集群（Vela 和 Blue Vela）来训练 Granite 代码模型，这两个集群分别配备了 NVIDIA A100 和 H100 GPU。这些集群为在数千个 GPU 上训练模型提供了可扩展且高效的基础设施。

评估结果

任务类型	数据集	指标	值	验证状态
文本生成	bigcode/humanevalpack（HumanEvalSynthesis (Python)）	pass@1	53.7	未验证
文本生成	bigcode/humanevalpack（HumanEvalSynthesis (Average)）	pass@1	41.4	未验证
文本生成	bigcode/humanevalpack（HumanEvalExplain (Average)）	pass@1	25.1	未验证
文本生成	bigcode/humanevalpack（HumanEvalFix (Average)）	pass@1	26.2	未验证
文本生成	repoqa（RepoQA (Python@16K)）	pass@1 (thresh=0.5)	48.0	未验证
文本生成	repoqa（RepoQA (C++@16K)）	pass@1 (thresh=0.5)	36.0	未验证
文本生成	repoqa（RepoQA (Java@16K)）	pass@1 (thresh=0.5)	38.0	未验证
文本生成	repoqa（RepoQA (TypeScript@16K)）	pass@1 (thresh=0.5)	39.0	未验证
文本生成	repoqa（RepoQA (Rust@16K)）	pass@1 (thresh=0.5)	29.0	未验证

🔧 技术细节

Granite 代码指令模型主要使用特定编程语言的指令 - 响应对进行微调。因此，在处理领域外的编程语言时，其性能可能会受到限制。在这种情况下，提供少量示例有助于引导模型输出。此外，开发者在将这些模型部署到关键应用程序之前，应进行安全测试和针对特定目标的调整。该模型还继承了其基础模型的伦理考量和局限性。更多信息，请参考 Granite-3B-Code-Base-128K 模型卡片。