Seed-Coder-8B-Base開源代碼模型 - 免費助力代碼生成與補全工作

首頁

Seed Coder 8B Base

由ByteDance-Seed開發

Seed-Coder是一個8B規模的開源代碼模型家族，包含基礎版、指令版和推理版，專注於代碼生成和補全任務。

大型語言模型

Transformers

開源協議:MIT #代碼補全 #中間填充 #32K長上下文

下載量 1,837

發布時間 : 4/27/2025

模型概述

Seed-Coder-8B-基礎版是一個因果語言模型，主要用於代碼補全和代碼填充（中間填充）任務，支持32K上下文長度。

模型特點

以模型為中心的數據處理

主要利用LLM而非手工規則進行代碼數據過濾，最小化預訓練數據構建中的人工干預。

透明開放

公開分享了以模型為中心的數據流水線細節，包括GitHub數據、提交數據和代碼相關網絡數據的處理方法。

高性能

在同類規模的開源模型中，在多樣化編碼任務上實現了最先進的性能。

長上下文支持

支持32,768 tokens的上下文長度，適合處理長代碼文件。

模型能力

代碼補全

代碼填充（中間填充）

代碼生成

使用案例

軟件開發

代碼自動補全

在IDE中提供智能代碼補全建議

提高開發效率

代碼片段生成

根據函數簽名生成完整函數實現

快速原型開發

編程教育

編程學習輔助

為學生提供代碼示例和補全建議

輔助編程學習

🚀 Seed-Coder-8B-Base

Seed-Coder-8B-Base 是一個 8B 規模的開源代碼模型，具有強大、透明和參數高效的特點。它有基礎、指令和推理等多種變體，能在多種編碼任務中展現出色性能。

✨ 主要特性

以模型為中心：Seed-Coder 主要利用大語言模型（LLMs）而非手工規則進行代碼數據過濾，減少了預訓練數據構建中的人工工作量。
透明性：我們公開分享了以模型為中心的數據管道的詳細信息，包括整理 GitHub 數據、提交數據和與代碼相關的網絡數據的方法。
強大性能：在各種編碼任務中，Seed-Coder 在同類規模的開源模型中達到了最先進的性能。

本倉庫包含的 Seed-Coder-8B-Base 模型，具有以下特點：

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練
數據源	GitHub 數據、與代碼相關的網絡數據
訓練令牌數	6 萬億
支持任務	代碼補全、代碼填充（中間填充）
上下文長度	32,768

📦 安裝指南

你需要安裝最新版本的 transformers 和 accelerate：

pip install -U transformers accelerate

🚀 快速開始

以下是一個簡單的示例，展示瞭如何使用 Hugging Face 的 pipeline API 加載模型並進行代碼生成：

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])

💻 使用示例

基礎用法

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])

高級用法

Seed-Coder-8B-Base 原生支持 中間填充（Fill-in-the-Middle，FIM） 任務，即給定前綴和後綴，模型預測缺失的中間內容。這適用於代碼填充場景，如完成函數體或在兩段代碼之間插入缺失的邏輯。

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 你可以將前綴、特殊的 FIM 分隔符令牌和後綴連接起來
prefix = "def add_numbers(a, b):\n    "
suffix = "\n    return result"

# 按照 FIM 格式組合前綴和後綴
fim_input = '<[fim-suffix]>' + suffix + '<[fim-prefix]>' + prefix + '<[fim-middle]>'

output = pipeline(fim_input, max_new_tokens=512)
print(output[0]["generated_text"])