Seed-Coder-8B-Baseオープンソースコードモデル - コード生成と補完作業を無料で支援

ホーム

Seed Coder 8B Base

ByteDance-Seedによって開発

Seed-Coderは8B規模のオープンソースコードモデルファミリーで、ベース版、命令版、推論版を含み、コード生成と補完タスクに特化しています。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #コード補完 #中間埋め込み #32K長文コンテキスト

ダウンロード数 1,837

リリース時間 : 4/27/2025

モデル概要

Seed-Coder-8B-ベース版は因果言語モデルで、主にコード補完とコード埋め込み（中間埋め込み）タスクに使用され、32Kのコンテキスト長をサポートします。

モデル特徴

モデル中心のデータ処理

主にLLMを利用してコードデータのフィルタリングを行い、手作業のルールを最小限に抑え、事前トレーニングデータ構築における人的介入を最小化します。

透明性とオープン性

モデル中心のデータパイプラインの詳細を公開し、GitHubデータ、コミットデータ、コード関連のウェブデータの処理方法を共有しています。

高性能

同規模のオープンソースモデルの中で、多様なコーディングタスクにおいて最先端の性能を実現しています。

長文コンテキストサポート

32,768トークンのコンテキスト長をサポートし、長いコードファイルの処理に適しています。

モデル能力

コード補完

コード埋め込み（中間埋め込み）

コード生成

使用事例

ソフトウェア開発

コード自動補完

IDEでインテリジェントなコード補完の提案を提供

開発効率の向上

コードスニペット生成

関数シグネチャに基づいて完全な関数実装を生成

迅速なプロトタイプ開発

プログラミング教育

プログラミング学習支援

学生にコード例と補完提案を提供

プログラミング学習の支援

🚀 Seed-Coder-8B-Base

Seed-Coderは、8B規模の強力で透明性が高く、パラメータ効率の良いオープンソースコードモデルのファミリーです。これには、ベース、インストラクト、推論のバリエーションがあり、オープンコードモデルの進化を促進することに貢献します。

🚀 クイックスタート

ここでは、Hugging Faceのpipeline APIを使用してモデルをロードし、コード生成を行う簡単な例を示します。

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])

中間埋め込み (FIM) の例

Seed-Coder-8B-Baseは、中間埋め込み (Fill-in-the-Middle, FIM) タスクをネイティブにサポートしています。このタスクでは、モデルに接頭辞と接尾辞を与え、欠落している中間の内容を予測するよう要求します。これにより、関数本体の完成や2つのコード片の間に欠落したロジックを挿入するなどのコード埋め込みシナリオが可能になります。

典型的な例を次に示します。

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 接頭辞、特殊なFIM区切りトークン、接尾辞を連結することができます
prefix = "def add_numbers(a, b):\n    "
suffix = "\n    return result"

# FIM形式に従って接頭辞と接尾辞を結合する
fim_input = '<[fim-suffix]>' + suffix + '<[fim-prefix]>' + prefix + '<[fim-middle]>'

output = pipeline(fim_input, max_new_tokens=512)
print(output[0]["generated_text"])

✨ 主な機能

モデル中心のアプローチ：Seed-Coderは、コードデータのフィルタリングに手作業によるルールではなくLLMを主に利用しており、事前学習データの構築における手作業を最小限に抑えています。
透明性：モデル中心のデータパイプラインに関する詳細な洞察を公開しています。これには、GitHubデータ、コミットデータ、およびコード関連のWebデータの選別方法が含まれます。
強力な性能：Seed-Coderは、様々なコーディングタスクにおいて、同等の規模のオープンソースモデルの中で最先端の性能を達成しています。

📦 インストール

最新バージョンのtransformersとaccelerateをインストールする必要があります。

pip install -U transformers accelerate

💻 使用例

基本的な使用法

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])

高度な使用法

import transformers
import torch

model_id = "ByteDance-Seed/Seed-Coder-8B-Base"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 接頭辞、特殊なFIM区切りトークン、接尾辞を連結することができます
prefix = "def add_numbers(a, b):\n    "
suffix = "\n    return result"

# FIM形式に従って接頭辞と接尾辞を結合する
fim_input = '<[fim-suffix]>' + suffix + '<[fim-prefix]>' + prefix + '<[fim-middle]>'

output = pipeline(fim_input, max_new_tokens=512)
print(output[0]["generated_text"])

📚 ドキュメント

このリポジトリにはSeed-Coder-8B-Baseモデルが含まれており、以下の特徴があります。

属性	详情
モデルタイプ	因果言語モデル
学習段階	事前学習
データソース	GitHubデータ、コード関連のWebデータ
学習トークン数	6兆
サポート機能	コード補完、コード埋め込み (中間埋め込み)
コンテキスト長	32,768

モデルのダウンロード

モデル名	長さ	ダウンロード	注意事項
👉 Seed-Coder-8B-Base	32K	🤗 モデル	モデル中心のコードデータで事前学習されています。
Seed-Coder-8B-Instruct	32K	🤗 モデル	ユーザーの意図に合わせて命令調整されています。
Seed-Coder-8B-Reasoning	64K	🤗 モデル	推論能力を向上させるために強化学習されています。
Seed-Coder-8B-Reasoning-bf16	64K	🤗 モデル	推論能力を向上させるために強化学習されています。