Phind - CodeLlama - 34B - v2开源代码生成模型，高通过率助你高效编码

首页

Phind CodeLlama 34B V2

由 Phind 开发

Phind-CodeLlama-34B-v2是基于Phind-CodeLlama-34B-v1微调的开源代码生成模型，在HumanEval测试中达到73.8% pass@1，是目前开源模型中的最先进水平。

大型语言模型

Transformers

#多语言编程助手 #HumanEval SOTA #指令微调优化

下载量 34.68k

发布时间 : 8/28/2023

模型简介

该模型擅长多语言编程，支持Python、C/C++、TypeScript、Java等语言，采用Alpaca/Vicuna格式进行指令微调，具有可操控性强、易用的特点。

模型特点

高性能代码生成

在HumanEval测试中达到73.8% pass@1，是目前开源模型中的最先进水平。

多语言支持

擅长Python、C/C++、TypeScript、Java等多种编程语言。

指令微调

采用Alpaca/Vicuna格式进行指令微调，具有可操控性强、易用的特点。

高质量训练数据

使用15亿token高质量编程问题与解决方案数据集进行微调。

模型能力

代码生成

代码补全

编程问题解答

多语言编程支持

使用案例

编程辅助

代码实现

根据用户指令实现特定功能的代码，如实现链表结构。

生成符合要求的代码实现

编程问题解答

解答编程相关问题，提供解决方案或优化建议。

提供有效的解决方案或优化建议

教育

编程学习辅助

帮助学习者理解编程概念和实现方法。

提供清晰易懂的代码示例和解释

🚀 Phind-CodeLlama-34B-v2

Phind-CodeLlama-34B-v2在Phind-CodeLlama-34B-v1的基础上，使用额外的15亿高质量编程相关数据进行微调，在HumanEval基准测试中达到了73.8%的pass@1准确率，是当前开源模型中的佼佼者。此外，该模型还按照Alpaca/Vicuna格式进行了指令微调，使用起来更加灵活方便。

🚀 快速开始

安装依赖

确保从主git分支安装Transformers库：

pip install git+https://github.com/huggingface/transformers.git

模型提示格式

此模型接受Alpaca/Vicuna指令格式。例如：

### System Prompt
You are an intelligent programming assistant.

### User Message
Implement a linked list in C++

### Assistant
...

✨ 主要特性

高精度：在HumanEval基准测试中达到73.8%的pass@1准确率，展现了出色的代码生成能力。
多语言支持：支持Python、C/C++、TypeScript、Java等多种编程语言。
指令微调：按照Alpaca/Vicuna格式进行指令微调，易于使用和控制。

📦 安装指南

确保从主git分支安装Transformers库：

pip install git+https://github.com/huggingface/transformers.git

💻 使用示例

基础用法

以下是如何使用该模型进行推理的示例：

from transformers import AutoTokenizer, LlamaForCausalLM
from human_eval.data import write_jsonl, read_problems
from tqdm import tqdm

# 初始化模型
model_path = "Phind/Phind-CodeLlama-34B-v2"
model = LlamaForCausalLM.from_pretrained(model_path, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_path)

# HumanEval辅助函数
def generate_one_completion(prompt: str):
    tokenizer.pad_token = tokenizer.eos_token
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=4096)

    # 生成
    generate_ids = model.generate(inputs.input_ids.to("cuda"), max_new_tokens=384, do_sample=True, top_p=0.75, top_k=40, temperature=0.1)
    completion = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
    completion = completion.replace(prompt, "").split("\n\n\n")[0]

    return completion

# 执行HumanEval
problems = read_problems()

num_samples_per_task = 1
samples = [
    dict(task_id=task_id, completion=generate_one_completion(problems[task_id]["prompt"]))
    for task_id in tqdm(problems)
    for _ in range(num_samples_per_task)
]
write_jsonl("samples.jsonl", samples)

# 在HumanEval代码沙箱中运行 `evaluate_functional_correctness samples.jsonl`

📚 详细文档

模型详情

该模型基于Phind-CodeLlama-34B-v1进行微调，在HumanEval基准测试中达到了73.8%的pass@1准确率。Phind-CodeLlama-34B-v2支持多种语言，包括Python、C/C++、TypeScript、Java等。

数据集详情

我们使用了一个包含15亿高质量编程问题和解决方案的专有数据集进行微调。该数据集由指令-答案对组成，而不是代码补全示例，因此在结构上与HumanEval不同。我们没有使用LoRA，两个模型都是原生微调。我们使用DeepSpeed ZeRO 3和Flash Attention 2在32个A100-80GB GPU上用15小时训练了这些模型，序列长度为4096个标记。