Phind-CodeLlama-34B-Python-v1開源代碼大模型 - 性能超GPT-4，免費助力代碼編寫

首頁

Phind CodeLlama 34B Python V1

由Phind開發

基於CodeLlama-34B-Python微調的大語言模型，在HumanEval上pass@1達69.5%，超越GPT-4表現

大型語言模型

Transformers

#代碼生成優化 #HumanEval高分 #Python專用

下載量 878

發布時間 : 8/25/2023

模型概述

專為代碼生成優化的34B參數大模型，通過8萬高質量編程問題微調，支持Python等編程語言

模型特點

HumanEval領先性能

在標準代碼生成基準測試中達到69.5% pass@1，超過GPT-4的67%表現

專業代碼微調

使用8萬個高質量編程問題解決方案進行指令微調，優化代碼生成能力

高效訓練技術

採用DeepSpeed ZeRO 3和Flash Attention 2技術，32臺A100-80GB僅需3小時完成訓練

模型能力

代碼生成

編程問題解答

算法實現

數據結構實現

使用案例

開發輔助

自動化代碼生成

根據自然語言描述生成可運行代碼

在HumanEval基準測試中正確率69.5%

編程教育

生成教學用代碼示例和練習題解答

🚀 Phind-CodeLlama-34B-Python-v1

我們在內部的Phind數據集上對CodeLlama-34B和CodeLlama-34B-Python進行了微調，它們在HumanEval上的pass@1分別達到了67.6%和69.5%，而GPT-4的pass@1為67%。我們對數據集應用了OpenAI的去汙染方法，以確保結果的有效性。更多詳細信息可查看我們的博客文章。

✨ 主要特性

基於CodeLlama-34B-Python微調，在HumanEval上的pass@1達到69.5%。
使用約80k個高質量編程問題及解決方案的專有數據集進行微調。
訓練未使用LoRA，採用原生微調方式。
運用DeepSpeed ZeRO 3和Flash Attention 2技術，在32塊A100 - 80GB GPU上3小時完成訓練。

📦 安裝指南

確保從主git分支安裝Transformers：

pip install git+https://github.com/huggingface/transformers.git

💻 使用示例

基礎用法

本模型經過一定的指令微調，但未進行對話微調。請勿使用Llama對話標記，只需告知模型你想要的內容，並在任務末尾添加"\n: "。

Write me a linked list implementation: \n

高級用法

重現HumanEval結果：

from transformers import AutoTokenizer, LlamaForCausalLM
from human_eval.data import write_jsonl, read_problems
from tqdm import tqdm

# initialize the model

model_path = "Phind/Phind-CodeLlama-34B-v1"
model = LlamaForCausalLM.from_pretrained(model_path, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_path)

# HumanEval helper

def generate_one_completion(prompt: str):
    tokenizer.pad_token = tokenizer.eos_token
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=4096)

    # Generate
    generate_ids = model.generate(inputs.input_ids.to("cuda"), max_new_tokens=256, do_sample=True, top_p=0.75, top_k=40, temperature=0.1)
    completion = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
    completion = completion.replace(prompt, "").split("\n\n\n")[0]

    return completion

# perform HumanEval
problems = read_problems()

num_samples_per_task = 1
samples = [
    dict(task_id=task_id, completion=generate_one_completion(problems[task_id]["prompt"]))
    for task_id in tqdm(problems)
    for _ in range(num_samples_per_task)
]
write_jsonl("samples.jsonl", samples)

# run `evaluate_functional_correctness samples.jsonl` in your HumanEval code sandbox

📚 詳細文檔

模型詳情

此模型基於CodeLlama-34B-Python微調，在HumanEval上的pass@1達到69.5%。

數據集詳情

我們在約80k個高質量編程問題及解決方案的專有數據集上進行微調。該數據集由指令 - 答案對組成，而非代碼補全示例，因此在結構上與HumanEval不同。Phind模型訓練了2個週期，總共展示了約160k個示例。未使用LoRA，兩個模型均採用原生微調方式。我們使用DeepSpeed ZeRO 3和Flash Attention 2技術，在32塊A100 - 80GB GPU上3小時完成訓練，序列長度為4096個標記。