CodeGemma-2b-GGUF开源代码模型 - 免费部署助力代码补全与生成任务

首页

Codegemma 2b GGUF

由 google 开发

CodeGemma是基于Gemma构建的轻量级开源代码模型系列，包含文本到文本和文本到代码的解码器模型，专精代码补全与生成任务。

大型语言模型 #代码补全 #多语言代码生成 #IDE插件支持

下载量 31

发布时间 : 3/21/2024

模型简介

CodeGemma是一个轻量级的开源代码模型系列，基于Gemma构建，专注于代码补全、代码生成和自然语言生成任务。提供2B和7B参数版本，适用于不同场景。

模型特点

代码补全

专为代码补全任务优化，支持多种编程语言。

代码生成

能够根据自然语言提示生成高质量的代码。

轻量级设计

提供2B和7B参数版本，适应不同计算资源需求。

负责任AI

经过严格的安全过滤和伦理评估，符合Google的AI原则。

模型能力

代码补全

代码生成

自然语言生成

对话

指令跟随

使用案例

开发工具

IDE插件支持

集成到开发环境中，提供实时代码补全建议。

提高开发效率，减少编码错误。

代码生成

根据自然语言描述生成完整代码片段。

快速原型开发，学习新编程语言。

教育

编程教育辅助

帮助学生理解编程概念，提供语法纠正。

提升学习效率，降低入门门槛。

🚀 CodeGemma

CodeGemma是基于Gemma构建的轻量级开源代码模型集合，可用于代码补全、代码生成等多种任务，为开发者提供高效的代码处理能力。

🚀 快速开始

在使用CodeGemma之前，请确保你已经了解以下信息：

模型页面：CodeGemma
资源与技术文档：
- 技术报告
- 负责任的生成式AI工具包
使用条款：条款
作者：Google

⚠️ 重要提示

在llama.cpp以及其他相关工具（如Ollama和LM Studio）中，请确保正确设置相关标志，尤其是**repeat-penalty**。Georgi Gerganov（llama.cpp的作者）在https://huggingface.co/google/gemma-7b-it/discussions/38#65d7b14adb51f7c160769fa1 分享了他的经验。

✨ 主要特性

多种模型变体：提供70亿参数的预训练变体、70亿参数的指令调优变体和20亿参数的预训练变体，满足不同的代码处理需求。
广泛的应用场景：可用于代码补全、代码生成、代码对话和代码教育等多个领域。
高性能表现：在多个编码和自然语言基准测试中表现出色。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

$ cat non_prime
/// Write a rust function to identify non-prime numbers.
///
/// Examples:
/// >>> is_not_prime(2)
/// False
/// >>> is_not_prime(10)
/// True
pub fn is_not_prime(n: i32) -> bool {
$ main -m codegemma-2b.gguf --temp 0 --top-k 0 -f non_prime --log-disable --repeat-penalty 1.0
 /// Write a rust function to identify non-prime numbers.
///
/// Examples:
/// >>> is_not_prime(2)
/// False
/// >>> is_not_prime(10)
/// True
pub fn is_not_prime(n: i32) -> bool {
    for i in 2..n {
        if n % i == 0 {
            return true;
        }
    }
    false
}
<|file_separator|>

高级用法

暂未提供相关高级用法示例。

📚 详细文档

模型信息

描述

CodeGemma是基于Gemma构建的轻量级开源代码模型集合。CodeGemma模型是仅解码器的文本到文本和文本到代码模型，有70亿参数的预训练变体（专注于代码补全和代码生成任务）、70亿参数的指令调优变体（用于代码聊天和指令跟随）和20亿参数的预训练变体（用于快速代码补全）。

	codegemma-2b	codegemma-7b	codegemma-7b-it
代码补全	✅	✅
自然语言生成代码		✅	✅
代码对话			✅
指令跟随			✅

输入与输出

输入：
- 预训练模型变体：代码补全和生成场景的代码前缀和/或后缀，或自然语言文本或提示。
- 指令调优模型变体：自然语言文本或提示。
输出：
- 预训练模型变体：中间填充代码补全、代码和自然语言。
- 指令调优模型变体：代码和自然语言。

模型数据

训练数据集

以Gemma为基础模型，CodeGemma 2B和7B预训练变体在额外的5000亿个主要为英语的标记上进行进一步训练，这些数据来自公开可用的代码仓库、开源数学数据集和合成生成的代码。

训练数据处理

应用了以下数据预处理技术：

FIM预训练：CodeGemma模型专注于中间填充（FIM）任务，支持PSM和SPM模式，FIM设置为80%的FIM率，PSM/SPM比例为50-50。
基于依赖图的打包和基于单元测试的词法打包：为了提高模型与实际应用的对齐，在项目/仓库级别构建训练示例，使每个仓库内最相关的源文件位于同一位置。
文档拆分技术：开发了一种将文档拆分为前缀、中间和后缀的新技术，使后缀的起始点在语法上更自然。
安全过滤：与Gemma类似，部署了严格的安全过滤，包括过滤个人数据、CSAM过滤和其他基于内容质量和安全的过滤。

实现信息

硬件

CodeGemma使用最新一代的张量处理单元（TPU）硬件（TPUv5e）进行训练。

软件

使用JAX和ML Pathways进行训练。

评估信息

评估方法

在多个领域的各种学术基准上对CodeGemma进行评估：

代码补全基准：HumanEval单行和多行填充。
代码生成基准：HumanEval、MBPP、BabelCode（C++、C#、Go、Java、JavaScript、Kotlin、Python、Rust）。
问答：BoolQ、PIQA、TriviaQA。
自然语言：ARC-Challenge、HellaSwag、MMLU、WinoGrande。
数学推理：GSM8K、MATH。

评估结果

编码基准

基准测试	2B	7B	7B-IT
HumanEval	31.1	44.5	56.1
MBPP	43.6	56.2	54.2
HumanEval单行	78.41	76.09	68.25
HumanEval多行	51.44	58.44	20.05
BC HE C++	24.2	32.9	42.2
BC HE C#	10.6	22.4	26.7
BC HE Go	20.5	21.7	28.6
BC HE Java	29.2	41.0	48.4
BC HE JavaScript	21.7	39.8	46.0
BC HE Kotlin	28.0	39.8	51.6
BC HE Python	21.7	42.2	48.4
BC HE Rust	26.7	34.1	36.0
BC MBPP C++	47.1	53.8	56.7
BC MBPP C#	28.7	32.5	41.2
BC MBPP Go	45.6	43.3	46.2
BC MBPP Java	41.8	50.3	57.3
BC MBPP JavaScript	45.3	58.2	61.4
BC MBPP Kotlin	46.8	54.7	59.9
BC MBPP Python	38.6	59.1	62.0
BC MBPP Rust	45.3	52.9	53.5