SantaCoder开源代码生成模型 - 基于多语言训练，支持代码中间填充任务

首页

Santacoder

由 bigcode 开发

SantaCoder是基于Python、Java和JavaScript代码训练的11亿参数代码生成模型，支持填充中间任务。

大型语言模型

Transformers

其他开源协议:Openrail #代码生成 #多语言编程 #填充中间

下载量 3,945

发布时间 : 12/2/2022

模型简介

SantaCoder是一个专注于代码生成的模型，主要用于Python、Java和JavaScript代码的自动补全和生成。它基于The Stack数据集训练，采用多查询注意力机制和填充中间目标。

模型特点

多语言代码生成

支持Python、Java和JavaScript三种主流编程语言的代码生成

填充中间功能

支持填充中间(FIM)任务，能够补全代码中的缺失部分

高效训练

采用多查询注意力机制，提高了训练效率

大上下文窗口

支持2048个标记的上下文窗口，适合处理较长代码片段

模型能力

代码自动补全

函数生成

代码片段生成

填充中间代码

使用案例

开发工具

代码自动补全

在IDE中提供智能代码补全功能

提高开发效率

代码片段生成

根据函数签名或注释生成完整代码实现

快速原型开发

教育

编程学习辅助

帮助学生理解代码结构和实现方式

增强学习效果

🚀 SantaCoder

SantaCoder是一系列参数为11亿的模型，在Python、Java和JavaScript代码上进行训练。它能根据一定上下文生成代码片段，可用于代码补全、代码生成等场景，为开发者提供便利。

🚀 快速开始

你可以在 SantaCoder Space Demo 中体验该模型。

✨ 主要特性

多语言支持：支持Python、Java和JavaScript三种编程语言。
多模型变体：除主模型外，还有多个基于不同过滤参数、架构和目标变体训练的模型。
Fill - in - the - Middle目标：支持填充中间内容的功能。

📦 安装指南

使用该模型前，你需要安装transformers库：

pip install -q transformers

💻 使用示例

基础用法

# pip install -q transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigcode/santacoder"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, trust_remote_code=True).to(device)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

高级用法 - Fill - in - the - Middle

Fill - in - the - Middle 使用特殊标记来识别输入和输出的前缀、中间和后缀部分：

input_text = "<fim-prefix>def print_hello_world():\n    <fim-suffix>\n    print('Hello world!')<fim-middle>"
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

请确保使用 <fim-prefix>, <fim-suffix>, <fim-middle> ，而不是像StarCoder模型中的 <fim_prefix>, <fim_suffix>, <fim_middle>。

高级用法 - 加载其他检查点

我们将每个实验的检查点上传到单独的分支，并将中间检查点作为分支上的提交。你可以使用 revision 标志加载它们：

model = AutoModelForCausalLM.from_pretrained(
    "bigcode/santacoder",
    revision="no-fim", # name of branch or commit hash
    trust_remote_code=True
)

📚 详细文档

模型概述

SantaCoder模型是一系列参数为11亿的模型，在 The Stack (v1.1) （排除了选择退出请求）的Python、Java和JavaScript子集上进行训练。主模型使用 Multi Query Attention ，上下文窗口为2048个标记，并使用近似去重和注释与代码的比例作为过滤标准，采用 Fill - in - the - Middle目标进行训练。此外，还有几个在具有不同过滤参数的数据集上训练的模型，以及架构和目标的变体。

模型属性	详情
仓库	bigcode/Megatron - LM
项目网站	bigcode - project.org
论文	🎅SantaCoder: Don't reach for the stars!🌟
联系人	contact@bigcode - project.org
支持语言	Python、Java和JavaScript

不同模型的架构、目标和过滤条件如下：

模型	架构	目标	过滤条件
`mha`	MHA	AR + FIM	基础
`no - fim`	MQA	AR	基础
`fim`	MQA	AR + FIM	基础
`stars`	MQA	AR + FIM	GitHub星数
`fertility`	MQA	AR + FIM	分词器丰富度
`comments`	MQA	AR + FIM	注释与代码比例
`dedup - alt`	MQA	AR + FIM	更强的近似去重
`final`	MQA	AR + FIM	更强的近似去重和注释与代码比例

final 模型是性能最佳的模型，训练时间是其他模型的两倍（2360亿个标记）。这个检查点是默认模型，可在 main 分支上获取。所有其他检查点都在具有相应名称的单独分支上。

预期用途

该模型在GitHub代码上进行训练，因此它不是一个指令模型，像“编写一个计算平方根的函数”这样的命令效果不佳。你应该像在源代码中那样表述命令，例如注释（如 # the following function computes the sqrt ），或者编写函数签名和文档字符串，让模型完成函数体。

欢迎在社区标签中分享你的生成结果！

局限性

该模型在Python、Java和JavaScript的源代码上进行训练。源代码中主要使用英语，尽管也存在其他语言。因此，该模型能够根据一定上下文生成代码片段，但生成的代码不能保证按预期工作，可能效率低下、包含错误或漏洞。

训练信息

模型

架构：具有多查询注意力和Fill - in - the - Middle目标的GPT - 2模型
预训练步骤：600K
预训练标记：2360亿
精度：float16

硬件

GPU：96个Tesla V100
训练时间：6.2天
总FLOPS：2.1 x 10e21

软件

编排：Megatron - LM
神经网络：PyTorch
FP16（如适用）：apex

🔧 技术细节

模型使用 Multi Query Attention 技术，能够在处理长序列时提高效率。同时，采用 Fill - in - the - Middle目标进行训练，使得模型能够更好地处理代码中的中间填充任务。在训练过程中，使用近似去重和注释与代码的比例作为过滤标准，提高了训练数据的质量。

📄 许可证

该模型遵循BigCode OpenRAIL - M v1许可协议。你可以在这里找到完整的协议。

📚 引用

@article{allal2023santacoder,
  title={SantaCoder: don't reach for the stars!},
  author={Allal, Loubna Ben and Li, Raymond and Kocetkov, Denis and Mou, Chenghao and Akiki, Christopher and Ferrandis, Carlos Munoz and Muennighoff, Niklas and Mishra, Mayank and Gu, Alex and Dey, Manan and others},
  journal={arXiv preprint arXiv:2301.03988},
  year={2023}
}