replit-code-v1_5-3b开源代码补全模型 - 支持30种编程语言轻松编程

首页

Replit Code V1 5 3b

由 replit 开发

33亿参数的因果语言模型，专注于代码补全任务，支持30种编程语言

大型语言模型

Transformers

其他开源协议:Apache-2.0 #多语言代码补全 #33亿参数优化 #万亿标记训练

下载量 1,773

发布时间 : 10/9/2023

模型简介

专注于代码补全的因果语言模型，基于1万亿代码标记训练，覆盖30种编程语言，采用GPTNeoX架构和定制分词器

模型特点

多语言代码支持

覆盖30种主流编程语言的代码补全能力

高效分词器

定制优化的32768标记词表，提升压缩率和覆盖率

大规模训练

基于1万亿代码标记训练，含5周期线性冷却策略

工业级训练平台

使用MosaicML平台和128张H100显卡训练

模型能力

代码自动补全

多语言代码生成

开发文档生成

使用案例

软件开发

IDE智能补全

集成到开发环境中提供实时代码建议

提升开发者效率

教学辅助

帮助学生理解代码结构和语法

降低编程学习门槛

🚀 Replit Code V-1.5 3B

Replit Code V-1.5 3B 是一个专注于代码补全的大语言模型，它基于大规模代码数据集进行训练，能为多种编程语言提供高效准确的代码补全功能。

✨ 主要特性

专注代码补全：专门针对代码补全任务进行训练，能有效提升编程效率。
多语言支持：支持 30 种编程语言，涵盖了常见的开发语言。
大上下文长度：上下文大小为 4096 个标记，能更好地理解代码上下文。

📦 安装指南

你需要安装以下依赖的最新版本：

einops
torch
transformers

💻 使用示例

基础用法

你可以使用 transformers 库来生成代码，示例如下：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('replit/replit-code-v1_5-3b', trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained('replit/replit-code-v1_5-3b', trust_remote_code=True)

x = tokenizer.encode('def fibonacci(n): ', return_tensors='pt')
y = model.generate(x, max_length=100, do_sample=True, top_p=0.95, top_k=4, temperature=0.2, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)

# decoding
generated_code = tokenizer.decode(y[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(generated_code)

你可以尝试不同的解码方法和参数，以获得最适合你用例的结果。

高级用法

使用 Triton 实现的 Flash Attention：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig

config = AutoConfig.from_pretrained(
    "replit/replit-code-v1_5-3b",
    trust_remote_code=True
)
config.attn_config['attn_impl'] = 'triton'

# load model
tokenizer = AutoTokenizer.from_pretrained('replit/replit-code-v1_5-3b', trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained('replit/replit-code-v1_5-3b', config=config, trust_remote_code=True)
model.to(device='cuda:0', dtype=torch.bfloat16)

# forward pass
x = tokenizer.encode('def fibonacci(n): ', return_tensors='pt').to(device='cuda:0')
x = x.to(device='cuda:0')
y = model.generate(x, max_length=100, do_sample=True, top_p=0.95, top_k=4, temperature=0.2, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)

# decoding
generated_code = tokenizer.decode(y[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(generated_code)

建议尝试调整 temperature 和 reptition_penalty 参数，以在你的用例中获得最佳性能。

📚 详细文档

模型描述

Replit Code v1.5 是一个具有 33 亿参数的因果语言模型，专注于 代码补全。

该模型在 bfloat16 中对 1T 代码标记进行训练（约 200B 标记，共 5 个周期，包括线性冷却），涵盖 30 种编程语言。训练数据来自 Bigcode 的 Stack Dedup 数据集中许可宽松的代码子集、同一 Stack Dedup 数据集中 Markdown 和 reStructuredText 子集的过滤自然语言样本，以及来自 RedPajama 的 StackExchange 数据集的面向开发者的样本，该样本源自 Stack Exchange Inc 的 Stack Exchange 数据转储。

这 30 种编程语言包括：

Java, JavaScript, C, PHP, Python, C++, C#, TypeScript, Go, CSS, HTML, Rust, Ruby, Swift, Scala, Shell, Lua, Perl, Haskell, JSX, Julia, Common Lisp, OCaml, Solidity, Scheme, R, Zig, SQL, Racket, D

模型的上下文大小为 4096 个标记。我们使用 GPTNeoX 分词器，其自定义训练和优化的词汇表包含 32768 个标记。这种自定义词汇表在保持或提高训练语料库覆盖率的同时，实现了个位数的压缩率。

该模型在 MosaicML 平台上使用 128 个 H100 - 80GB GPU 进行训练，使用了他们基于 PyTorch 构建的 LLM Foundry 和 Composer 训练库。