Biggie-SmoLlm-0.15B-Base開源語言模型 - 訓練場景適用，推理快且連貫

首頁

Biggie SmoLlm 0.15B Base

由nisten開發

基於SmolLM-135M的微型語言模型升級版，參數規模0.18B，適用於訓練場景，具有優異的推理速度和連貫性表現

大型語言模型

Transformers

開源協議:MIT #微型高效推理 #單CPU核運行 #進化式模型融合

下載量 944

發布時間 : 7/29/2024

模型概述

這是一個通過半自動化持續融合技術構建的語言模型，具有更優的連貫性，是進階訓練的絕佳選擇。模型融合了進化式模型融合、BitNet集成和實驗性GrokAdamW優化器等多項前沿技術。

模型特點

高效推理

單CPU核即可實現160token/秒的推理速度，無需GPU支持

先進優化技術

融合進化式模型融合、BitNet集成和實驗性GrokAdamW優化器等多項前沿技術

輕量化

量化後模型僅164MB，適合資源受限環境部署

連貫性表現

即使在默認溫度參數下，前100個token也表現連貫

模型能力

文本生成

指令理解

技術問答

使用案例

科研應用

科學問答

回答NASA JPL科學家提出的技術問題

能夠生成符合科學背景的連貫回答

教育

教學輔助

生成技術概念的解釋和示例

🚀 Tiny Frankenstein of SmolLM-135M upped to 0.18b

本項目是 SmolLM-135M 的微調版本，參數提升至 0.18b。可用於訓練，為相關研究和應用提供支持。

🚀 快速開始

下載訓練好的檢查點文件

如果你比較著急，可以下載在單個 CPU 核心上運行的訓練好的檢查點文件：

wget https://huggingface.co/nisten/Biggie-SmoLlm-0.15B-Base/resolve/main/biggie_groked_int8_q8_0.gguf

確保先安裝最新的 llama.cpp，在 Linux 和 Mac 上安裝很簡單：

git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make -j

運行實驗性微調模型

在無 GPU 且僅使用一個 CPU 核心的情況下，使用以下設置運行：

./llama-cli -n -1 -fa -b 512 -ctv q8_0 -ctk q8_0 -fa --min-p 0.3 --top-p 0.85 --keep -1 -p "You are a NASA JPL Scientists. Human: I want to bring my cat to mars." -m biggie_groked_int8_q8_0.gguf -co -cnv --in-prefix "<|im_start|>Human:" --reverse-prompt "Human:" -c 1024 -n 512 --temp 1.5 -ngl 0

訓練自己的模型

克隆倉庫

git clone https://github.com/nisten/grokadamw
cd grokadamw

運行訓練腳本

python smoltrainer.py

✨ 主要特性

參數提升：將 SmolLM-135M 模型參數提升至 0.18b（實際為 181m 參數）。
高速運行：訓練好的微調模型可在單個 CPU 核心上以每秒 160 個令牌的速度運行。
實驗性優化：採用了實驗性的 GrokAdamW 優化器，提升模型性能。

📦 安裝指南

安裝依賴

pip install torch transformers datasets tqdm

💻 使用示例

基礎用法

運行以下命令下載模型文件：

wget https://huggingface.co/nisten/Biggie-SmoLlm-0.15B-Base/resolve/main/biggie_groked_int8_q8_0.gguf

高級用法

使用以下命令在特定設置下運行模型：

./llama-cli -fa -b 512 -ctv q8_0 -ctk q8_0 --min-p 0.3 --top-p 0.85 --keep -1 \
  -p "You are a NASA JPL Scientists. Human: I want to bring my cat to mars." \
  --in-prefix "<|im_start|>Human:" --reverse-prompt "Human:" \
  -m biggie_groked_int8_q8_0.gguf -co -cnv \
  -c 1024 -n 700 --temp 1.5 -ngl 0 -t 1

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	HuggingFaceTB/SmolLM-135M
訓練數據集	LDJnr/Capybara
推理模型文件	biggie_groked_int8_q8_0.gguf
溫度參數	1

引用說明

請在未來的論文中引用此 Hugging Face 頁面的工作以及 @cognitivecompai 的優化器，否則我將在 Twitter 上公開批評你的組織，就像我對 Cohere 做的那樣（順便說一下，我們現在關係很好，我還去拜訪過他們）。

https://github.com/cognitivecomputations/grokadamw
https://github.com/SakanaAI/evolutionary-model-merge/
https://huggingface.co/blog/smollm

訓練教程

從頭開始訓練

創建一個名為 meow.py 的文件，將以下代碼複製粘貼進去，然後運行 python meow.py：

import torch
import torch.nn as nn
import logging
from datasets import load_dataset, Dataset
from transformers import AutoConfig, AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
from torch.cuda.amp import autocast
import warnings
from tqdm import tqdm

warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=UserWarning)

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

MODEL_NAME = "nisten/Biggie-SmoLlm-0.15B-Base"
MAX_LENGTH = 2048
BATCH_SIZE = 8
LEARNING_RATE = 2e-4
MAX_STEPS = 3000
GRADIENT_ACCUMULATION_STEPS = 2
NUM_WARMUP_STEPS = 30
OUTPUT_DIR = "./capybara_finetuned_results"

torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.allow_tf32 = True

class GrokAdamW(torch.optim.Optimizer):
    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=1e-2,
                 alpha_init=0.98, lamb=2.0, gamma=0.1, grokking_signal_fns=None,
                 grokking_signal_decay_rate=0.1, gradient_clipping=1.0):
        defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay,
                        alpha_init=alpha_init, lamb=lamb, gamma=gamma,
                        grokking_signal_fns=grokking_signal_fns,
                        grokking_signal_decay_rate=grokking_signal_decay_rate,
                        gradient_clipping=gradient_clipping)
        super(GrokAdamW, self).__init__(params, defaults)

    @torch.no_grad()
    def step(self, closure=None):
        loss = None
        if closure is not None:
            with torch.enable_grad():
                loss = closure()

        for group in self.param_groups:
            grokking_signal = self._compute_grokking_signal(group)
            for i, p in enumerate(group['params']):
                if p.grad is None:
                    continue
                grad = p.grad

                if group['gradient_clipping'] > 0:
                    grad = torch.clamp(grad, -group['gradient_clipping'], group['gradient_clipping'])

                state = self.state[p]

                if len(state) == 0:
                    state['step'] = 0
                    state['exp_avg'] = torch.zeros_like(p, memory_format=torch.preserve_format)
                    state['exp_avg_sq'] = torch.zeros_like(p, memory_format=torch.preserve_format)
                    state['grok_ema'] = torch.zeros_like(p, memory_format=torch.preserve_format)

                exp_avg, exp_avg_sq, grok_ema = state['exp_avg'], state['exp_avg_sq'], state['grok_ema']
                beta1, beta2 = group['betas']

                state['step'] += 1
                
                layer_beta1 = beta1 * (1 - group['gamma'])**i

                alpha = group['alpha_init'] * torch.exp(torch.tensor(-group['grokking_signal_decay_rate'] * grokking_signal))
                grok_ema.mul_(alpha).add_(grad, alpha=1 - alpha)
                grok_grad = grad + group['lamb'] * grok_ema

                exp_avg.mul_(layer_beta1).add_(grok_grad, alpha=1 - layer_beta1)
                exp_avg_sq.mul_(beta2).addcmul_(grok_grad, grok_grad, value=1 - beta2)

                denom = exp_avg_sq.sqrt().add_(group['eps'])
                step_size = group['lr']

                if group['weight_decay'] != 0:
                    p.data.mul_(1 - group['lr'] * group['weight_decay'])

                p.addcdiv_(exp_avg, denom, value=-step_size)

        return loss

    def _compute_grokking_signal(self, group):
        if group['grokking_signal_fns'] is None:
            return 0.0

        signals = []
        for fn in group['grokking_signal_fns']:
            try:
                signal = fn()
                if signal is not None:
                    signals.append(signal)
            except Exception as e:
                logger.warning(f"Error in grokking_signal_fn: {e}. Ignoring this function.")

        if not signals:
            return 0.0

        return sum(signals) / len(signals)

def format_capybara_prompts(examples):
    texts = []
    for conversation in examples['conversation']:
        formatted_text = ""
        for turn in conversation:
            if 'input' in turn:
                formatted_text += f"Human: {turn['input']}\n\n"
            if 'output' in turn:
                formatted_text += f"Assistant: {turn['output']}\n\n"
        texts.append(formatted_text.strip())
    return {"text": texts}

class CustomTrainer(Trainer):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.grokking_signal = 0.0

    def compute_loss(self, model, inputs, return_outputs=False):
        labels = inputs.pop("labels")
        outputs = model(**inputs)
        logits = outputs.logits
        shift_logits = logits[..., :-1, :].contiguous()
        shift_labels = labels[..., 1:].contiguous()
        loss_fct = nn.CrossEntropyLoss()
        loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))
        return (loss, outputs) if return_outputs else loss

    def training_step(self, model, inputs):
        model.train()
        inputs = self._prepare_inputs(inputs)

        with autocast(dtype=torch.bfloat16):
            loss = self.compute_loss(model, inputs)

        if self.args.gradient_accumulation_steps > 1:
            loss = loss / self.args.gradient_accumulation_steps

        loss.backward()

        self.grokking_signal = loss.item()

        return loss.detach()

def grokking_signal_fn():
    return trainer.grokking_signal

def main():
    logger.info(f"Initializing {MODEL_NAME} finetuning with GrokAdamW")
    
    try:
        config = AutoConfig.from_pretrained(MODEL_NAME)
        tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
        model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch.bfloat16)
    except Exception as e:
        logger.error(f"Failed to load model or tokenizer: {str(e)}")
        return

    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token
        model.config.pad_token_id = model.config.eos_token_id

    logger.info("Loading Capybara dataset")
    try:
        capybara_dataset = load_dataset("LDJnr/Capybara", split="train")
        capybara_dataset = capybara_dataset.map(format_capybara_prompts, batched=True, remove_columns=capybara_dataset.column_names)
    except Exception as e:
        logger.error(f"Failed to load Capybara dataset: {str(e)}")
        return

    logger.info(f"Capybara dataset size: {len(capybara_dataset)}")

    def tokenize_function(examples):
        return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=MAX_LENGTH)

    logger.info("Tokenizing dataset")
    tokenized_dataset = capybara_dataset.map(tokenize_function, batched=True, remove_columns=capybara_dataset.column_names)

    logger.info("Setting up the training arguments")
    training_args = TrainingArguments(
        output_dir=OUTPUT_DIR,
        num_train_epochs=3,
        per_device_train_batch_size=BATCH_SIZE,
        gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
        learning_rate=LEARNING_RATE,
        weight_decay=0.01,
        bf16=True,
        logging_steps=10,
        save_steps=300,
        save_total_limit=10,
        dataloader_num_workers=4,
        warmup_steps=NUM_WARMUP_STEPS,
        gradient_checkpointing=True,
        evaluation_strategy="steps",
        eval_steps=300,
        max_steps=MAX_STEPS,
        fp16=False,
        optim="adamw_hf",
        lr_scheduler_type="cosine",
        load_best_model_at_end=True,
        metric_for_best_model="loss",
        greater_is_better=False,
    )

    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

    optimizer = GrokAdamW(
        model.parameters(),
        lr=LEARNING_RATE,
        betas=(0.9, 0.999),
        eps=1e-8,
        weight_decay=0.01,
        alpha_init=0.98,
        lamb=2.0,
        gamma=0.1,
        grokking_signal_fns=[grokking_signal_fn],
        grokking_signal_decay_rate=0.1,
        gradient_clipping=1.0
    )

    logger.info("Initializing Trainer with GrokAdamW")
    global trainer
    trainer = CustomTrainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_dataset,
        eval_dataset=tokenized_dataset.select(range(min(1000, len(tokenized_dataset)))),
        data_collator=data_collator,
        optimizers=(optimizer, None),
    )

    logger.info("Starting the training with GrokAdamW")
    try:
        trainer.train()
    except Exception as e:
        logger.error(f"Training failed: {str(e)}")
        return

    logger.info("Saving the model")
    try:
        trainer.save_model(OUTPUT_DIR)
    except Exception as e:
        logger.error(f"Failed to save model: {str(e)}")

    logger.info("Finetuning with GrokAdamW completed!")

if __name__ == "__main__":
    main()

注意事項

⚠️ 重要提示

訓練需要約 14GB 的 VRAM。如果只有 8GB，請將批量大小改為 4。

💡 使用建議

訓練結果將保存在 ./capybara_finetuned_results 目錄中。

🔧 技術細節

技術融合

本項目涉及多種技術的融合：

進化合並（Evolutionary Merging）：通過半自動化的連續合併方式構建基礎模型。
BitNet 集成（BitNet Integration）：具體集成方式和效果有待進一步研究和驗證。
實驗性 GrokAdamW 優化器（Experimental GrokAdamW Optimizer）：由 @cognitivecompai 開發，為模型訓練提供了新的優化思路。