CodeGemma-7B-IT-GGUF開源代碼模型 - 免費實現代碼補全、生成與對話功能

首頁

Codegemma 7b It GGUF

由google開發

CodeGemma是基於Gemma構建的輕量級開源代碼模型系列，專注於代碼補全、生成和對話任務。

大型語言模型 #代碼補全 #多語言代碼生成 #IDE集成

下載量 46

發布時間 : 3/21/2024

模型概述

CodeGemma是一個基於Gemma的輕量級開源代碼模型系列，提供多種變體，適用於代碼補全、生成和自然語言對話任務。

模型特點

代碼補全與生成

支持多種編程語言的代碼補全和生成任務，特別適用於IDE擴展和無環境代碼生成。

自然語言對話

指令調優版支持自然語言對話和指令跟隨，適用於代碼相關的交互式應用。

高效訓練與推理

使用TPUv5e硬件和JAX框架進行高效訓練，支持快速推理。

負責任AI設計

經過嚴格的安全過濾和倫理評估，符合Google的AI原則和政策。

模型能力

代碼補全

代碼生成

自然語言生成

對話

指令跟隨

使用案例

代碼開發

IDE代碼補全

在集成開發環境中提供即時代碼補全建議。

提高開發效率，減少編碼錯誤。

代碼生成

根據自然語言提示生成完整的代碼片段。

快速原型開發，減少手動編碼時間。

編程教育

交互式學習

提供交互式編程學習和語法糾正。

幫助學習者快速掌握編程技能。

代碼對話

代碼相關問題解答

回答與代碼相關的自然語言問題。

提供即時技術支持和建議。

🚀 CodeGemma

CodeGemma是基於Gemma構建的輕量級開源代碼模型集合，可用於代碼補全、代碼生成、代碼對話和代碼教育等多種場景，為開發者提供高效的代碼處理能力。

🚀 快速開始

在llama.cpp以及其他相關工具（如Ollama和LM Studio）中使用CodeGemma時，請確保正確設置相關標誌，特別是repeat-penalty。Georgi Gerganov（llama.cpp的作者）在此鏈接分享了他的經驗。

✨ 主要特性

多變體選擇：提供70億參數預訓練變體、70億參數指令微調變體和20億參數預訓練變體，滿足不同的代碼處理需求。
廣泛的應用場景：支持代碼補全、自然語言生成代碼、代碼對話和代碼教育等多種應用場景。
高性能表現：在多個編碼和自然語言基準測試中表現出色。
嚴格的安全過濾：採用嚴格的安全過濾機制，確保模型輸出的安全性和合規性。

📚 詳細文檔

模型頁面

CodeGemma

資源與技術文檔

使用條款

條款

作者

Google

💻 使用示例

基礎用法

$ cat non_prime
/// Write a rust function to identify non-prime numbers.
///
/// Examples:
/// >>> is_not_prime(2)
/// False
/// >>> is_not_prime(10)
/// True
pub fn is_not_prime(n: i32) -> bool {
$ main -m codegemma-7b-it.gguf --temp 0 --top-k 0 -f non_prime --log-disable --repeat-penalty 1.0
 /// Write a rust function to identify non-prime numbers.
///
/// Examples:
/// >>> is_not_prime(2)
/// False
/// >>> is_not_prime(10)
/// True
pub fn is_not_prime(n: i32) -> bool {
    if n <= 1 {
        return true;
    }
    for i in 2..=(n as f64).sqrt() as i32 {
        if n % i == 0 {
            return true;
        }
    }
    false
}

輸入與輸出

輸入：
- 預訓練模型變體：代碼補全和生成場景的代碼前綴和/或後綴，或自然語言文本或提示。
- 指令微調模型變體：自然語言文本或提示。
輸出：
- 預訓練模型變體：中間填充代碼補全、代碼和自然語言。
- 指令微調模型變體：代碼和自然語言。

🔧 技術細節

模型數據

訓練數據集

以Gemma為基礎模型，CodeGemma 2B和7B預訓練變體在額外的5000億個主要為英語的令牌數據上進行進一步訓練，這些數據來自公開可用的代碼倉庫、開源數學數據集和合成生成的代碼。

訓練數據處理

採用了以下數據預處理技術：

FIM預訓練：CodeGemma模型專注於中間填充（FIM）任務，模型訓練支持PSM和SPM模式，FIM設置為80%的FIM率，PSM/SPM比例為50-50。
基於依賴圖的打包和基於單元測試的詞法打包技術：為了提高模型與實際應用的對齊度，在項目/倉庫級別構建訓練示例，將每個倉庫中最相關的源文件放在一起。具體採用了基於依賴圖的打包和基於單元測試的詞法打包兩種啟發式技術。
文檔拆分技術：開發了一種將文檔拆分為前綴、中間和後綴的新技術，使後綴的起始點在語法上更加自然，而不是純粹的隨機分佈。
安全過濾：與Gemma類似，部署了嚴格的安全過濾機制，包括過濾個人數據、CSAM過濾和其他基於內容質量和安全的過濾，符合我們的政策。

實現信息

硬件

CodeGemma使用最新一代的張量處理單元（TPU）硬件（TPUv5e）進行訓練。

軟件

使用JAX和ML Pathways進行訓練。

評估信息

評估方法

在多個領域的各種學術基準測試中對CodeGemma進行評估：

代碼補全基準測試：HumanEval單行和多行填充。
代碼生成基準測試：HumanEval、MBPP、BabelCode（C++、C#、Go、Java、JavaScript、Kotlin、Python、Rust）。
問答：BoolQ、PIQA、TriviaQA。
自然語言：ARC-Challenge、HellaSwag、MMLU、WinoGrande。
數學推理：GSM8K、MATH。

評估結果

編碼基準測試

基準測試	2B	7B	7B-IT
HumanEval	31.1	44.5	56.1
MBPP	43.6	56.2	54.2
HumanEval單行	78.41	76.09	68.25
HumanEval多行	51.44	58.44	20.05
BC HE C++	24.2	32.9	42.2
BC HE C#	10.6	22.4	26.7
BC HE Go	20.5	21.7	28.6
BC HE Java	29.2	41.0	48.4
BC HE JavaScript	21.7	39.8	46.0
BC HE Kotlin	28.0	39.8	51.6
BC HE Python	21.7	42.2	48.4
BC HE Rust	26.7	34.1	36.0
BC MBPP C++	47.1	53.8	56.7
BC MBPP C#	28.7	32.5	41.2
BC MBPP Go	45.6	43.3	46.2
BC MBPP Java	41.8	50.3	57.3
BC MBPP JavaScript	45.3	58.2	61.4
BC MBPP Kotlin	46.8	54.7	59.9
BC MBPP Python	38.6	59.1	62.0
BC MBPP Rust	45.3	52.9	53.5