CodeGemma-7B-IT開源代碼模型 - 免費實現代碼生成、補全及對話任務

首頁

Codegemma 7b It

由google開發

CodeGemma是基於Gemma構建的輕量級開源代碼模型集合，專長於代碼生成、補全和對話任務。

大型語言模型

Transformers

#代碼生成 #指令調優 #代碼補全

下載量 3,286

發布時間 : 3/21/2024

模型概述

CodeGemma是Google開發的代碼生成模型，提供70億參數的指令調優變體，用於代碼對話、指令跟隨和自然語言生成代碼。

模型特點

代碼生成與補全

支持從自然語言生成代碼，以及代碼片段的智能補全

指令跟隨

經過指令調優，能夠準確理解和執行編程相關的指令

對話能力

支持關於代碼和技術問題的交互式對話

高效訓練

採用先進的FIM（中間填充）技術和項目級數據組織方法

模型能力

代碼生成

代碼補全

技術問答

編程教育

代碼解釋

語法糾正

使用案例

軟件開發

代碼自動生成

根據自然語言描述自動生成完整代碼片段

提高開發效率，減少重複編碼工作

IDE智能補全

集成到開發環境中提供智能代碼補全

提升編碼速度和準確性

技術教育

編程學習輔助

解答編程問題，提供代碼示例

幫助學習者理解編程概念

代碼審查

分析代碼並提供改進建議

提升代碼質量和安全性

🚀 CodeGemma

CodeGemma是基於Gemma構建的輕量級開源代碼模型集合，可用於代碼補全、代碼生成、代碼對話等多種任務，為開發者提供高效的代碼處理能力。

🚀 快速開始

要在Hugging Face上訪問CodeGemma，您需要查看並同意Google的使用許可。請確保您已登錄Hugging Face，然後點擊下方按鈕。請求將立即處理。

確認許可

✨ 主要特性

多種模型變體：提供20億參數、70億預訓練和70億指令微調三種不同參數規模的模型，滿足不同場景需求。
多任務支持：支持代碼補全、自然語言生成代碼、代碼對話和指令跟隨等多種任務。
高性能表現：在多個編碼和自然語言基準測試中表現出色。

📦 安裝指南

暫未提供相關安裝步驟，可參考模型官方文檔進行安裝。

💻 使用示例

基礎用法

以下是使用CodeGemma進行代碼生成的基礎示例：

from transformers import GemmaTokenizer, AutoModelForCausalLM

tokenizer = GemmaTokenizer.from_pretrained("google/codegemma-7b-it")
model = AutoModelForCausalLM.from_pretrained("google/codegemma-7b-it")

input_text = "Write me a Python function to calculate the nth fibonacci number."
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

高級用法

以下是使用CodeGemma進行代碼對話的高級示例：

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model_id = "google/codegemma-7b-it"
dtype = torch.bfloat16

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype=dtype,
)

chat = [
    { "role": "user", "content": "Write a hello world program" },
]

prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)

📚 詳細文檔

模型信息

描述

CodeGemma是基於Gemma構建的輕量級開源代碼模型集合。CodeGemma模型是文本到文本和文本到代碼的僅解碼器模型，有70億預訓練變體、70億參數指令調優變體和20億參數預訓練變體三種版本，分別適用於代碼補全、代碼生成、代碼對話和指令跟隨等任務。

功能	codegemma-2b	codegemma-7b	codegemma-7b-it
代碼補全	✅	✅
自然語言生成代碼		✅	✅
代碼對話			✅
指令跟隨			✅

輸入輸出

輸入：
- 預訓練模型變體：代碼前綴和/或後綴用於代碼補全和生成場景，或自然語言文本或提示。
- 指令調優模型變體：自然語言文本或提示。
輸出：
- 預訓練模型變體：中間填充代碼補全、代碼和自然語言。
- 指令調優模型變體：代碼和自然語言。

模型數據

訓練數據集

以Gemma為基礎模型，CodeGemma 2B和7B預訓練變體在額外的5000億個主要為英語的令牌上進行訓練，這些數據來自公開可用的代碼倉庫、開源數學數據集和合成生成的代碼。

訓練數據處理

採用了以下數據預處理技術：

FIM預訓練：CodeGemma模型專注於中間填充（FIM）任務，支持PSM和SPM模式，FIM率為80%，PSM/SPM比例為50-50。
基於依賴圖和單元測試的打包技術：為提高模型與實際應用的對齊，在項目/倉庫級別構建訓練示例，採用依賴圖打包和單元測試詞法打包技術。
文檔拆分技術：開發了一種將文檔拆分為前綴、中間和後綴的新技術，使後綴從更符合語法的自然點開始。
安全過濾：與Gemma類似，採用嚴格的安全過濾，包括過濾個人數據、CSAM過濾和其他基於內容質量和安全的過濾。

實現信息

硬件

CodeGemma使用最新一代的張量處理單元（TPU）硬件（TPUv5e）進行訓練。

軟件

使用JAX和ML Pathways進行訓練。

評估信息

評估方法

在多個領域的學術基準測試中評估CodeGemma：

代碼補全基準：HumanEval單行和多行填充。
代碼生成基準：HumanEval、MBPP、BabelCode（C++、C#、Go、Java、JavaScript、Kotlin、Python、Rust）。
問答：BoolQ、PIQA、TriviaQA。
自然語言：ARC-Challenge、HellaSwag、MMLU、WinoGrande。
數學推理：GSM8K、MATH。

評估結果

編碼基準測試

基準測試	2B	7B	7B-IT
HumanEval	31.1	44.5	56.1
MBPP	43.6	56.2	54.2
HumanEval單行	78.41	76.09	68.25
HumanEval多行	51.44	58.44	20.05
BC HE C++	24.2	32.9	42.2
BC HE C#	10.6	22.4	26.7
BC HE Go	20.5	21.7	28.6
BC HE Java	29.2	41.0	48.4
BC HE JavaScript	21.7	39.8	46.0
BC HE Kotlin	28.0	39.8	51.6
BC HE Python	21.7	42.2	48.4
BC HE Rust	26.7	34.1	36.0
BC MBPP C++	47.1	53.8	56.7
BC MBPP C#	28.7	32.5	41.2
BC MBPP Go	45.6	43.3	46.2
BC MBPP Java	41.8	50.3	57.3
BC MBPP JavaScript	45.3	58.2	61.4
BC MBPP Kotlin	46.8	54.7	59.9
BC MBPP Python	38.6	59.1	62.0
BC MBPP Rust	45.3	52.9	53.5