Seed-Coder-8B-Base开源代码模型 - 免费助力代码生成与补全工作

首页

Seed Coder 8B Base

由 ByteDance-Seed 开发

Seed-Coder是一个8B规模的开源代码模型家族，包含基础版、指令版和推理版，专注于代码生成和补全任务。

大型语言模型

Transformers

开源协议:MIT #代码补全 #中间填充 #32K长上下文

下载量 1,837

发布时间 : 4/27/2025

模型简介

Seed-Coder-8B-基础版是一个因果语言模型，主要用于代码补全和代码填充（中间填充）任务，支持32K上下文长度。

模型特点

以模型为中心的数据处理

主要利用LLM而非手工规则进行代码数据过滤，最小化预训练数据构建中的人工干预。

透明开放

公开分享了以模型为中心的数据流水线细节，包括GitHub数据、提交数据和代码相关网络数据的处理方法。

高性能

在同类规模的开源模型中，在多样化编码任务上实现了最先进的性能。

长上下文支持

支持32,768 tokens的上下文长度，适合处理长代码文件。

模型能力

代码补全

代码填充（中间填充）

代码生成

使用案例

软件开发

代码自动补全

在IDE中提供智能代码补全建议

提高开发效率

代码片段生成

根据函数签名生成完整函数实现

快速原型开发

编程教育

编程学习辅助

为学生提供代码示例和补全建议

辅助编程学习

🚀 Seed-Coder-8B-Base

Seed-Coder-8B-Base 是一个 8B 规模的开源代码模型，具有强大、透明和参数高效的特点。它有基础、指令和推理等多种变体，能在多种编码任务中展现出色性能。

✨ 主要特性

以模型为中心：Seed-Coder 主要利用大语言模型（LLMs）而非手工规则进行代码数据过滤，减少了预训练数据构建中的人工工作量。
透明性：我们公开分享了以模型为中心的数据管道的详细信息，包括整理 GitHub 数据、提交数据和与代码相关的网络数据的方法。
强大性能：在各种编码任务中，Seed-Coder 在同类规模的开源模型中达到了最先进的性能。

本仓库包含的 Seed-Coder-8B-Base 模型，具有以下特点：

属性	详情
模型类型	因果语言模型
训练阶段	预训练
数据源	GitHub 数据、与代码相关的网络数据
训练令牌数	6 万亿
支持任务	代码补全、代码填充（中间填充）
上下文长度	32,768

📦 安装指南

你需要安装最新版本的 transformers 和 accelerate：

pip install -U transformers accelerate

🚀 快速开始

以下是一个简单的示例，展示了如何使用 Hugging Face 的 pipeline API 加载模型并进行代码生成：

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])

💻 使用示例

基础用法

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])

高级用法

Seed-Coder-8B-Base 原生支持 中间填充（Fill-in-the-Middle，FIM） 任务，即给定前缀和后缀，模型预测缺失的中间内容。这适用于代码填充场景，如完成函数体或在两段代码之间插入缺失的逻辑。

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 你可以将前缀、特殊的 FIM 分隔符令牌和后缀连接起来
prefix = "def add_numbers(a, b):\n    "
suffix = "\n    return result"

# 按照 FIM 格式组合前缀和后缀
fim_input = '<[fim-suffix]>' + suffix + '<[fim-prefix]>' + prefix + '<[fim-middle]>'

output = pipeline(fim_input, max_new_tokens=512)
print(output[0]["generated_text"])