StarcoderPlus开源代码生成模型 - 支持多语言编程及自然语言处理任务

首页

Starcoderplus

由 bigcode 开发

StarCoderPlus 是一个强大的代码生成模型，基于 BigCode 项目开发，支持多种编程语言和自然语言处理任务。

大型语言模型

Transformers

其他#代码生成 #多语言编程 #机器学习推理

下载量 52

发布时间 : 5/8/2023

模型简介

StarCoderPlus 是一个多功能的大型语言模型，专注于代码生成和文本理解任务，适用于编程辅助和多语言文本处理。

模型特点

强大的代码生成能力

能够根据提示生成高质量的代码片段，支持多种编程语言。

多语言支持

不仅支持编程语言，还能处理多种自然语言任务，如中文和英文。

高性能推理

在多个基准测试中表现出色，如 HumanEval 和 MMLU。

模型能力

代码生成

文本理解

多语言处理

常识推理

抽象推理

使用案例

编程辅助

代码补全

根据函数签名或注释自动生成完整的代码实现。

在 HumanEval 测试中达到 26.7% 的通过率@1。

教育

机器学习概念解释

用简洁的语言解释复杂的机器学习概念，如梯度下降法。

🚀 StarCoderPlus

StarCoderPlus是一个强大的语言模型，可处理英文及80多种编程语言。它在英文网页文本和GitHub代码数据上进行训练，能用于代码生成等任务，其指令调优版本在实际应用中表现出色。

🚀 快速开始

你可以在 StarChat-Beta 中体验经过指令调优的 StarCoderPlus。

✨ 主要特性

多数据源微调：基于 StarCoderBase 进行微调，使用了英文网页数据集 RefinedWeb、StarCoderData 数据集以及经过5倍上采样的维基百科数据集。
多语言支持：支持英文和80多种编程语言。
先进技术应用：采用 Multi Query Attention、8192 个标记的上下文窗口，并基于 Fill-in-the-Middle 目标在1.6万亿个标记上进行训练。

属性	详情
模型类型	具有多查询注意力和 Fill-in-the-Middle 目标的 GPT - 2 模型
训练数据	英文网页数据、GitHub代码数据、维基百科数据
训练步数	150k
训练标记数	600B
精度	bfloat16
硬件	512 个 Tesla A100 GPU，训练时间 14 天
软件	编排：Megatron - LM；神经网络：PyTorch；BP16（如适用）：apex
语言	英文和 80 + 种编程语言
仓库	bigcode/Megatron - LM
项目网站	bigcode - project.org
联系方式	contact@bigcode - project.org

📦 安装指南

使用以下命令安装所需库：

pip install -q transformers

💻 使用示例

基础用法

# pip install -q transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigcode/starcoderplus"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

高级用法

Fill - in - the - middle

Fill - in - the - middle 使用特殊标记来识别输入和输出的前缀/中间/后缀部分：

input_text = "<fim_prefix>def print_hello_world():\n    <fim_suffix>\n    print('Hello world!')<fim_middle>"
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

归属与其他要求

该模型的训练代码数据集仅筛选了许可型许可证的数据。不过，模型仍可能直接从数据集中生成源代码。代码的许可证可能要求进行归属声明和/或其他特定要求，必须予以遵守。我们提供了一个搜索索引，可用于搜索预训练数据，以确定生成的代码来源，并为你的代码进行适当的归属声明。

📚 详细文档

预期用途

该模型在英文和 GitHub 代码上进行训练，因此它不是一个指令模型，像“编写一个计算平方根的函数”这样的命令效果不佳。然而，StarChat 中的指令调优版本是一个出色的助手。

欢迎在社区标签中分享你的生成结果！

🔧 技术细节

StarCoderPlus 是在 600B 英文和代码标记上对 StarCoderBase 进行微调的版本，而 StarCoderBase 是在 1T 代码标记上进行预训练的。以下是微调的详细信息：

模型架构：具有多查询注意力和 Fill - in - the - Middle 目标的 GPT - 2 模型。
微调步骤：150k。
微调标记数：600B。
精度：bfloat16。
硬件：使用 512 个 Tesla A100 GPU，训练时间为 14 天。
软件：编排使用 Megatron - LM，神经网络使用 PyTorch，BP16（如适用）使用 apex。

📄 许可证

该模型遵循 BigCode OpenRAIL - M v1 许可协议。你可以在此处查看完整协议。

⚠️ 重要提示

该模型在网络上的英文文本和 GitHub 代码的混合数据上进行训练，因此在处理非英文文本时可能会遇到限制，并且可能带有常见的在线刻板印象和偏见。此外，生成的代码应谨慎使用，因为它可能包含错误、低效或潜在的安全漏洞。如需更全面地了解基础模型的代码限制，请参考 StarCoder 论文。