seed-coder-triton-8b-v1オープンソース大規模言語モデル - 長いシーケンス入力と効率的なトレーニングをサポート

ホーム

Seed Coder Triton 8b V1

winglianによって開発

ByteDance - Seed/Seed - Coder - 8B - Baseモデルを特定のデータセットで微調整した大規模言語モデルで、長シーケンス入力と効率的なトレーニング戦略をサポートします。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #長シーケンス推論 #コード生成最適化 #効率的な微調整

ダウンロード数 1,388

リリース時間 : 5/13/2025

モデル概要

このモデルは、axolotl - ai - internal/gpumode - py2triton - reasoning - v2データセットでSeed - Coder - 8B - Baseを微調整した成果物で、特定分野のタスクニーズに適しています。

モデル特徴

長シーケンスサポート

最大16384のシーケンス入力をサポートし、長いテキストや複雑なコードの処理に適しています。

効率的なトレーニング戦略

サンプルのパッキングとパディング戦略を採用し、複数の最適化プラグインを組み合わせてトレーニング効率を向上させます。

最適化アーキテクチャ

LigerPluginなどの最適化技術を使用してモデルアーキテクチャを改善し、パフォーマンスを向上させます。

モデル能力

コード生成

論理推論

長テキスト処理

使用事例

コード関連

コード生成

要求に応じて特定の機能を持つコードを生成します。

評価セットでの損失値は0.2177です。

コード推論

既存のコードロジックを理解して分析します。

🚀 Transformersモデルプロジェクト

このプロジェクトはtransformersライブラリをベースに、モデルの微調整トレーニングを行っています。このモデルは特定のデータセット上で基礎モデルを微調整した成果物で、特定分野のタスクニーズを解決し、関連分野のアプリケーションに強力なサポートを提供します。

🚀 クイックスタート

このモデルは ByteDance-Seed/Seed-Coder-8B-Base を axolotl-ai-internal/gpumode-py2triton-reasoning-v2 データセットで微調整したバージョンです。評価セットで以下の結果を得ました：

損失値：0.2177

✨ 主な機能

強力な基礎モデルByteDance-Seed/Seed-Coder-8B-Baseをベースに微調整されています。
LigerPlugin、CutCrossEntropyPluginなどの複数のプラグインと最適化戦略を採用しています。
長シーケンス入力をサポートし、シーケンス長は最大16384に達することができます。
サンプルパッキングとパディング戦略を使用し、トレーニング効率を向上させています。

📚 ドキュメント

Axolotl設定詳細

Axolotl設定を表示

Axolotlバージョン：0.10.0.dev0

base_model: ByteDance-Seed/Seed-Coder-8B-Base

plugins:
  - axolotl.integrations.liger.LigerPlugin
  - axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin
liger_rope: true
liger_rms_norm: true
liger_glu_activation: true

chat_template: llama3
datasets:
  - path: axolotl-ai-internal/gpumode-py2triton-reasoning-v2
    type: chat_template
    split: train

dataset_prepared_path: last_run_prepared
val_set_size: 0.005
output_dir: ./outputs/out

sequence_len: 16384
sample_packing: true
pad_to_sequence_len: true

wandb_project: seed-coder-8b-grpo-triton
wandb_entity: axolotl-ai
wandb_watch:
wandb_name:
wandb_log_model:

gradient_accumulation_steps: 1
micro_batch_size: 2
num_epochs: 3
optimizer: adamw_torch_fused
max_grad_norm: 0.1
neftune_noise_alpha: 10
lr_scheduler: cosine
learning_rate: 1e-6
lr_groups:
  - name: embeddings
    modules:
      - embed_tokens
      - lm_head
    lr: 0.00003  # scalu up LR for embeddings as these are unused tokens

bf16: true
tf32: true

gradient_checkpointing: offload
gradient_checkpointing_kwargs:
  use_reentrant: false
logging_steps: 1
flash_attention: true

warmup_steps: 100
evals_per_epoch: 5
saves_per_epoch: 1
weight_decay: 0.01
deepspeed: deepspeed_configs/zero1.json
special_tokens:
  eos_token: <|eot_id|>
added_tokens_overrides:
  7: <|start_header_id|>
  8: <|end_header_id|>
  9: <|eot_id|>
  10: <think>
  11: </think>
fix_untrained_tokens: [7, 8, 9, 10, 11]

トレーニングハイパーパラメータ

トレーニング過程では以下のハイパーパラメータが使用されました：

学習率：1e-06
トレーニングバッチサイズ：2
評価バッチサイズ：2
乱数シード：42
分散タイプ：マルチGPU
デバイス数：10
総トレーニングバッチサイズ：20
総評価バッチサイズ：20
オプティマイザ：OptimizerNames.ADAMW_TORCH_FUSEDを使用し、betas=(0.9,0.999)、epsilon=1e-08、追加のオプティマイザパラメータはありません
学習率スケジューラタイプ：コサイン
学習率スケジューラウォームアップステップ：100
トレーニングエポック数：3.0

トレーニング結果

トレーニング損失	エポック数	ステップ数	検証損失
0.5293	0.0046	1	5.7151
0.4449	0.2018	44	0.4878
0.425	0.4037	88	0.4319
0.3437	0.6055	132	0.3322
0.2903	0.8073	176	0.2893
0.2528	1.0092	220	0.2677
0.2578	1.2110	264	0.2531
0.2522	1.4128	308	0.2414
0.2403	1.6147	352	0.2352
0.232	1.8165	396	0.2252
0.2093	2.0183	440	0.2360
0.2406	2.2202	484	0.2311
0.2523	2.4220	528	0.2260
0.2139	2.6239	572	0.2259
0.2296	2.8257	616	0.2177