CodeGemma-7b開源代碼模型 - 免費部署助力高效代碼補全與生成

首頁

Codegemma 7b

由google開發

CodeGemma是基於Gemma構建的一系列輕量級開源代碼模型，專注於代碼補全和生成任務。

大型語言模型

Transformers

#代碼填充補全 #多語言代碼生成 #IDE智能輔助

下載量 15.29k

發布時間 : 3/21/2024

模型概述

CodeGemma是文本到文本和文本到代碼的解碼器專用模型，提供多種變體，適用於代碼補全、代碼生成和代碼對話等任務。

模型特點

多任務支持

支持代碼補全、代碼生成和代碼對話等多種任務。

高性能

在編碼基準測試中表現優異，相比同類尺寸的開源模型具有更高的性能。

負責任AI設計

專為負責任AI開發設計，包括安全過濾和倫理考量。

模型能力

代碼補全

代碼生成

代碼對話

指令跟隨

使用案例

代碼開發

代碼補全

在代碼編輯器中提供中間填充功能，提高開發效率。

生成符合語法的代碼片段，減少手動輸入。

代碼生成

根據自然語言描述生成完整的代碼函數。

生成可執行的代碼，如斐波那契數計算函數。

教育

代碼學習

幫助學習者理解代碼邏輯和結構。

提供代碼示例和解釋，輔助學習。

🚀 CodeGemma

CodeGemma是基於Gemma構建的輕量級開源代碼模型集合，提供了不同參數規模的變體，可用於代碼補全、代碼生成、代碼對話和代碼學習等多種場景，為開發者提供高效的代碼處理能力。

🚀 快速開始

要在Hugging Face上使用CodeGemma，你需要查看並同意Google的使用許可。請確保你已登錄Hugging Face，然後點擊下方按鈕。請求將立即處理。確認許可

✨ 主要特性

多任務支持：支持代碼補全、自然語言到代碼生成、代碼對話和指令跟隨等多種任務。
多變體選擇：提供20億參數、70億預訓練和70億指令微調等不同參數規模的變體，滿足不同場景需求。
高性能表現：在多個編碼和自然語言基準測試中表現出色。

📚 詳細文檔

模型信息

描述

CodeGemma是基於Gemma構建的輕量級開源代碼模型集合。它包含文本到文本和文本到代碼的僅解碼器模型，有70億參數的預訓練變體（專注於代碼補全和生成任務）、70億參數的指令微調變體（用於代碼對話和指令跟隨）和20億參數的預訓練變體（用於快速代碼補全）。

	codegemma-2b	codegemma-7b	codegemma-7b-it
代碼補全	✅	✅
自然語言生成代碼		✅	✅
代碼對話			✅
指令跟隨			✅

輸入輸出

輸入：
- 預訓練模型變體：代碼補全和生成場景的代碼前綴和/或後綴，或自然語言文本或提示。
- 指令微調模型變體：自然語言文本或提示。
輸出：
- 預訓練模型變體：中間填充代碼補全、代碼和自然語言。
- 指令微調模型變體：代碼和自然語言。

模型數據

訓練數據集

以Gemma為基礎模型，CodeGemma 2B和7B預訓練變體在額外的5000億個主要為英語的令牌上進行了進一步訓練，這些數據來自公開可用的代碼庫、開源數學數據集和合成生成的代碼。

訓練數據處理

採用了以下數據預處理技術：

FIM預訓練：專注於中間填充（FIM）任務，支持PSM和SPM模式，FIM率為80%，PSM/SPM比例為50-50。
基於依賴圖和單元測試的打包技術：在項目/倉庫級別構建訓練示例，以提高模型與實際應用的對齊度。
文檔拆分技術：開發了一種將文檔拆分為前綴、中間和後綴的新技術，使後綴的起始點在語法上更加自然。
安全過濾：與Gemma類似，部署了嚴格的安全過濾，包括過濾個人數據、CSAM過濾和其他基於內容質量和安全的過濾。

實現信息

硬件

CodeGemma使用最新一代的張量處理單元（TPU）硬件（TPUv5e）進行訓練。

軟件

使用JAX和ML Pathways進行訓練。

評估信息

評估方法

在多個領域的各種學術基準上對CodeGemma進行評估：

代碼補全基準：HumanEval單行和多行填充。
代碼生成基準：HumanEval、MBPP、BabelCode（C++、C#、Go、Java、JavaScript、Kotlin、Python、Rust）。
問答：BoolQ、PIQA、TriviaQA。
自然語言：ARC-Challenge、HellaSwag、MMLU、WinoGrande。
數學推理：GSM8K、MATH。

評估結果

編碼基準

基準測試	2B	7B	7B-IT
HumanEval	31.1	44.5	56.1
MBPP	43.6	56.2	54.2
HumanEval Single Line	78.41	76.09	68.25
HumanEval Multi Line	51.44	58.44	20.05
BC HE C++	24.2	32.9	42.2
BC HE C#	10.6	22.4	26.7
BC HE Go	20.5	21.7	28.6
BC HE Java	29.2	41.0	48.4
BC HE JavaScript	21.7	39.8	46.0
BC HE Kotlin	28.0	39.8	51.6
BC HE Python	21.7	42.2	48.4
BC HE Rust	26.7	34.1	36.0
BC MBPP C++	47.1	53.8	56.7
BC MBPP C#	28.7	32.5	41.2
BC MBPP Go	45.6	43.3	46.2
BC MBPP Java	41.8	50.3	57.3
BC MBPP JavaScript	45.3	58.2	61.4
BC MBPP Kotlin	46.8	54.7	59.9
BC MBPP Python	38.6	59.1	62.0
BC MBPP Rust	45.3	52.9	53.5

自然語言基準

CodeGemma自然語言基準測試

倫理與安全

評估方法

評估方法包括結構化評估和內部紅隊測試，針對與倫理和安全相關的多個類別進行評估，包括：

人工評估：對涵蓋內容安全和代表性危害的提示進行人工評估。
網絡攻擊能力測試：專門測試網絡攻擊能力，確保潛在危害得到限制。

評估結果

倫理和安全評估結果在可接受的閾值內，符合內部政策，如兒童安全、內容安全、代表性危害、記憶和大規模危害等類別。

模型使用與限制

預期用途

代碼補全：預訓練模型可用於通過IDE擴展完成代碼。
代碼生成：指令微調模型可用於生成代碼，有無IDE擴展均可。
代碼對話：指令微調模型可支持代碼對話界面。
代碼教育：指令微調模型支持交互式代碼學習體驗，幫助糾正語法或提供編碼練習。

已知限制

大型語言模型（LLM）基於其訓練數據和技術本身存在一定限制。有關LLM限制的更多詳細信息，請參閱Gemma模型卡片。

倫理考慮與風險

大型語言模型（LLM）的開發引發了一些倫理問題。在這些模型的開發過程中，我們仔細考慮了多個方面。有關模型的詳細信息，請參閱Gemma模型卡片中的相關討論。

優勢

在發佈時，與同等規模的模型相比，該系列模型提供了高性能的專注於開源代碼的大型語言模型實現，專為負責任的AI開發而設計。

💻 使用示例

基礎用法

代碼補全

from transformers import GemmaTokenizer, AutoModelForCausalLM

model_id = "google/codegemma-7b"
tokenizer = GemmaTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

prompt = '''\
<|fim_prefix|>import datetime
def calculate_age(birth_year):
    """Calculates a person's age based on their birth year."""
    current_year = datetime.date.today().year
    <|fim_suffix|>
    return age<|fim_middle|>\
'''

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
prompt_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0][prompt_len:]))

代碼生成

from transformers import GemmaTokenizer, AutoModelForCausalLM

tokenizer = GemmaTokenizer.from_pretrained("google/codegemma-7b")
model = AutoModelForCausalLM.from_pretrained("google/codegemma-7b")

input_text = "Write me a Python function to calculate the nth fibonacci number."
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

高級用法

代碼補全（帶終止符）

FIM_PREFIX = '<|fim_prefix|>'
FIM_SUFFIX = '<|fim_suffix|>'
FIM_MIDDLE = '<|fim_middle|>'
FIM_FILE_SEPARATOR = '<|file_separator|>'

terminators = tokenizer.convert_tokens_to_ids([FIM_PREFIX, FIM_MIDDLE, FIM_SUFFIX, FIM_FILE_SEPARATOR])
terminators += [tokenizer.eos_token_id]

outputs = model.generate(
  **inputs,
  max_new_tokens=100,
  eos_token_id=terminators,
)