CodeGemma-7B-IT开源代码模型 - 免费实现代码生成、补全及对话任务

首页

Codegemma 7b It

由 google 开发

CodeGemma是基于Gemma构建的轻量级开源代码模型集合，专长于代码生成、补全和对话任务。

大型语言模型

Transformers

#代码生成 #指令调优 #代码补全

下载量 3,286

发布时间 : 3/21/2024

模型简介

CodeGemma是Google开发的代码生成模型，提供70亿参数的指令调优变体，用于代码对话、指令跟随和自然语言生成代码。

模型特点

代码生成与补全

支持从自然语言生成代码，以及代码片段的智能补全

指令跟随

经过指令调优，能够准确理解和执行编程相关的指令

对话能力

支持关于代码和技术问题的交互式对话

高效训练

采用先进的FIM（中间填充）技术和项目级数据组织方法

模型能力

代码生成

代码补全

技术问答

编程教育

代码解释

语法纠正

使用案例

软件开发

代码自动生成

根据自然语言描述自动生成完整代码片段

提高开发效率，减少重复编码工作

IDE智能补全

集成到开发环境中提供智能代码补全

提升编码速度和准确性

技术教育

编程学习辅助

解答编程问题，提供代码示例

帮助学习者理解编程概念

代码审查

分析代码并提供改进建议

提升代码质量和安全性

🚀 CodeGemma

CodeGemma是基于Gemma构建的轻量级开源代码模型集合，可用于代码补全、代码生成、代码对话等多种任务，为开发者提供高效的代码处理能力。

🚀 快速开始

要在Hugging Face上访问CodeGemma，您需要查看并同意Google的使用许可。请确保您已登录Hugging Face，然后点击下方按钮。请求将立即处理。

确认许可

✨ 主要特性

多种模型变体：提供20亿参数、70亿预训练和70亿指令微调三种不同参数规模的模型，满足不同场景需求。
多任务支持：支持代码补全、自然语言生成代码、代码对话和指令跟随等多种任务。
高性能表现：在多个编码和自然语言基准测试中表现出色。

📦 安装指南

暂未提供相关安装步骤，可参考模型官方文档进行安装。

💻 使用示例

基础用法

以下是使用CodeGemma进行代码生成的基础示例：

from transformers import GemmaTokenizer, AutoModelForCausalLM

tokenizer = GemmaTokenizer.from_pretrained("google/codegemma-7b-it")
model = AutoModelForCausalLM.from_pretrained("google/codegemma-7b-it")

input_text = "Write me a Python function to calculate the nth fibonacci number."
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

高级用法

以下是使用CodeGemma进行代码对话的高级示例：

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model_id = "google/codegemma-7b-it"
dtype = torch.bfloat16

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype=dtype,
)

chat = [
    { "role": "user", "content": "Write a hello world program" },
]

prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)

📚 详细文档

模型信息

描述

CodeGemma是基于Gemma构建的轻量级开源代码模型集合。CodeGemma模型是文本到文本和文本到代码的仅解码器模型，有70亿预训练变体、70亿参数指令调优变体和20亿参数预训练变体三种版本，分别适用于代码补全、代码生成、代码对话和指令跟随等任务。

功能	codegemma-2b	codegemma-7b	codegemma-7b-it
代码补全	✅	✅
自然语言生成代码		✅	✅
代码对话			✅
指令跟随			✅

输入输出

输入：
- 预训练模型变体：代码前缀和/或后缀用于代码补全和生成场景，或自然语言文本或提示。
- 指令调优模型变体：自然语言文本或提示。
输出：
- 预训练模型变体：中间填充代码补全、代码和自然语言。
- 指令调优模型变体：代码和自然语言。

模型数据

训练数据集

以Gemma为基础模型，CodeGemma 2B和7B预训练变体在额外的5000亿个主要为英语的令牌上进行训练，这些数据来自公开可用的代码仓库、开源数学数据集和合成生成的代码。

训练数据处理

采用了以下数据预处理技术：

FIM预训练：CodeGemma模型专注于中间填充（FIM）任务，支持PSM和SPM模式，FIM率为80%，PSM/SPM比例为50-50。
基于依赖图和单元测试的打包技术：为提高模型与实际应用的对齐，在项目/仓库级别构建训练示例，采用依赖图打包和单元测试词法打包技术。
文档拆分技术：开发了一种将文档拆分为前缀、中间和后缀的新技术，使后缀从更符合语法的自然点开始。
安全过滤：与Gemma类似，采用严格的安全过滤，包括过滤个人数据、CSAM过滤和其他基于内容质量和安全的过滤。

实现信息

硬件

CodeGemma使用最新一代的张量处理单元（TPU）硬件（TPUv5e）进行训练。

软件

使用JAX和ML Pathways进行训练。

评估信息

评估方法

在多个领域的学术基准测试中评估CodeGemma：

代码补全基准：HumanEval单行和多行填充。
代码生成基准：HumanEval、MBPP、BabelCode（C++、C#、Go、Java、JavaScript、Kotlin、Python、Rust）。
问答：BoolQ、PIQA、TriviaQA。
自然语言：ARC-Challenge、HellaSwag、MMLU、WinoGrande。
数学推理：GSM8K、MATH。

评估结果

编码基准测试

基准测试	2B	7B	7B-IT
HumanEval	31.1	44.5	56.1
MBPP	43.6	56.2	54.2
HumanEval单行	78.41	76.09	68.25
HumanEval多行	51.44	58.44	20.05
BC HE C++	24.2	32.9	42.2
BC HE C#	10.6	22.4	26.7
BC HE Go	20.5	21.7	28.6
BC HE Java	29.2	41.0	48.4
BC HE JavaScript	21.7	39.8	46.0
BC HE Kotlin	28.0	39.8	51.6
BC HE Python	21.7	42.2	48.4
BC HE Rust	26.7	34.1	36.0
BC MBPP C++	47.1	53.8	56.7
BC MBPP C#	28.7	32.5	41.2
BC MBPP Go	45.6	43.3	46.2
BC MBPP Java	41.8	50.3	57.3
BC MBPP JavaScript	45.3	58.2	61.4
BC MBPP Kotlin	46.8	54.7	59.9
BC MBPP Python	38.6	59.1	62.0
BC MBPP Rust	45.3	52.9	53.5