🚀 Seed-Coder-8B-Base
Seed-Coder-8B-Base 是一個 8B 規模的開源代碼模型,具有強大、透明和參數高效的特點。它有基礎、指令和推理等多種變體,能在多種編碼任務中展現出色性能。
✨ 主要特性
- 以模型為中心:Seed-Coder 主要利用大語言模型(LLMs)而非手工規則進行代碼數據過濾,減少了預訓練數據構建中的人工工作量。
- 透明性:我們公開分享了以模型為中心的數據管道的詳細信息,包括整理 GitHub 數據、提交數據和與代碼相關的網絡數據的方法。
- 強大性能:在各種編碼任務中,Seed-Coder 在同類規模的開源模型中達到了最先進的性能。
本倉庫包含的 Seed-Coder-8B-Base 模型,具有以下特點:
屬性 |
詳情 |
模型類型 |
因果語言模型 |
訓練階段 |
預訓練 |
數據源 |
GitHub 數據、與代碼相關的網絡數據 |
訓練令牌數 |
6 萬億 |
支持任務 |
代碼補全、代碼填充(中間填充) |
上下文長度 |
32,768 |
📦 安裝指南
你需要安裝最新版本的 transformers
和 accelerate
:
pip install -U transformers accelerate
🚀 快速開始
以下是一個簡單的示例,展示瞭如何使用 Hugging Face 的 pipeline
API 加載模型並進行代碼生成:
import transformers
import torch
model_id = "ByteDance-Seed/Seed-Coder-8B-Base"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])
💻 使用示例
基礎用法
import transformers
import torch
model_id = "ByteDance-Seed/Seed-Coder-8B-Base"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])
高級用法
Seed-Coder-8B-Base 原生支持 中間填充(Fill-in-the-Middle,FIM) 任務,即給定前綴和後綴,模型預測缺失的中間內容。這適用於代碼填充場景,如完成函數體或在兩段代碼之間插入缺失的邏輯。
import transformers
import torch
model_id = "ByteDance-Seed/Seed-Coder-8B-Base"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
prefix = "def add_numbers(a, b):\n "
suffix = "\n return result"
fim_input = '<[fim-suffix]>' + suffix + '<[fim-prefix]>' + prefix + '<[fim-middle]>'
output = pipeline(fim_input, max_new_tokens=512)
print(output[0]["generated_text"])
📚 詳細文檔
Seed-Coder-8B-Base 已在代碼生成、代碼補全和代碼推理基準測試中進行了評估,在約 8B 的開源模型中達到了最先進的性能。
基準測試 |
DeepSeek-Coder-6.7B-Base |
OpenCoder-8B-Base |
Qwen2.5-Coder-7B |
Seed-Coder-8B-Base |
HumanEval |
47.6 |
66.5 |
72.0 |
77.4 |
MBPP |
70.2 |
79.9 |
79.4 |
82.0 |
MultiPL-E |
44.7 |
61.0 |
58.8 |
67.6 |
cruxeval-O |
41.0 |
43.9 |
56.0 |
54.8 |
有關詳細的基準測試性能,請參考我們的 📑 技術報告。
📄 許可證
本項目採用 MIT 許可證。有關詳細信息,請參閱 LICENSE 文件。