Phind - CodeLlama - 34B - v2開源代碼生成模型，高通過率助你高效編碼

首頁

Phind CodeLlama 34B V2

由Phind開發

Phind-CodeLlama-34B-v2是基於Phind-CodeLlama-34B-v1微調的開源代碼生成模型，在HumanEval測試中達到73.8% pass@1，是目前開源模型中的最先進水平。

大型語言模型

Transformers

#多語言編程助手 #HumanEval SOTA #指令微調優化

下載量 34.68k

發布時間 : 8/28/2023

模型概述

該模型擅長多語言編程，支持Python、C/C++、TypeScript、Java等語言，採用Alpaca/Vicuna格式進行指令微調，具有可操控性強、易用的特點。

模型特點

高性能代碼生成

在HumanEval測試中達到73.8% pass@1，是目前開源模型中的最先進水平。

多語言支持

擅長Python、C/C++、TypeScript、Java等多種編程語言。

指令微調

採用Alpaca/Vicuna格式進行指令微調，具有可操控性強、易用的特點。

高質量訓練數據

使用15億token高質量編程問題與解決方案數據集進行微調。

模型能力

代碼生成

代碼補全

編程問題解答

多語言編程支持

使用案例

編程輔助

代碼實現

根據用戶指令實現特定功能的代碼，如實現鏈表結構。

生成符合要求的代碼實現

編程問題解答

解答編程相關問題，提供解決方案或優化建議。

提供有效的解決方案或優化建議

教育

編程學習輔助

幫助學習者理解編程概念和實現方法。

提供清晰易懂的代碼示例和解釋

🚀 Phind-CodeLlama-34B-v2

Phind-CodeLlama-34B-v2在Phind-CodeLlama-34B-v1的基礎上，使用額外的15億高質量編程相關數據進行微調，在HumanEval基準測試中達到了73.8%的pass@1準確率，是當前開源模型中的佼佼者。此外，該模型還按照Alpaca/Vicuna格式進行了指令微調，使用起來更加靈活方便。

🚀 快速開始

安裝依賴

確保從主git分支安裝Transformers庫：

pip install git+https://github.com/huggingface/transformers.git

模型提示格式

此模型接受Alpaca/Vicuna指令格式。例如：

### System Prompt
You are an intelligent programming assistant.

### User Message
Implement a linked list in C++

### Assistant
...

✨ 主要特性

高精度：在HumanEval基準測試中達到73.8%的pass@1準確率，展現了出色的代碼生成能力。
多語言支持：支持Python、C/C++、TypeScript、Java等多種編程語言。
指令微調：按照Alpaca/Vicuna格式進行指令微調，易於使用和控制。

📦 安裝指南

確保從主git分支安裝Transformers庫：

pip install git+https://github.com/huggingface/transformers.git

💻 使用示例

基礎用法

以下是如何使用該模型進行推理的示例：

from transformers import AutoTokenizer, LlamaForCausalLM
from human_eval.data import write_jsonl, read_problems
from tqdm import tqdm

# 初始化模型
model_path = "Phind/Phind-CodeLlama-34B-v2"
model = LlamaForCausalLM.from_pretrained(model_path, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_path)

# HumanEval輔助函數
def generate_one_completion(prompt: str):
    tokenizer.pad_token = tokenizer.eos_token
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=4096)

    # 生成
    generate_ids = model.generate(inputs.input_ids.to("cuda"), max_new_tokens=384, do_sample=True, top_p=0.75, top_k=40, temperature=0.1)
    completion = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
    completion = completion.replace(prompt, "").split("\n\n\n")[0]

    return completion

# 執行HumanEval
problems = read_problems()

num_samples_per_task = 1
samples = [
    dict(task_id=task_id, completion=generate_one_completion(problems[task_id]["prompt"]))
    for task_id in tqdm(problems)
    for _ in range(num_samples_per_task)
]
write_jsonl("samples.jsonl", samples)

# 在HumanEval代碼沙箱中運行 `evaluate_functional_correctness samples.jsonl`

📚 詳細文檔

模型詳情

該模型基於Phind-CodeLlama-34B-v1進行微調，在HumanEval基準測試中達到了73.8%的pass@1準確率。Phind-CodeLlama-34B-v2支持多種語言，包括Python、C/C++、TypeScript、Java等。

數據集詳情

我們使用了一個包含15億高質量編程問題和解決方案的專有數據集進行微調。該數據集由指令-答案對組成，而不是代碼補全示例，因此在結構上與HumanEval不同。我們沒有使用LoRA，兩個模型都是原生微調。我們使用DeepSpeed ZeRO 3和Flash Attention 2在32個A100-80GB GPU上用15小時訓練了這些模型，序列長度為4096個標記。