Nuke_X_Gemma3_1B_Reasoner_Testing開源推理模型 - 增強邏輯推理能力助力高效決策

首頁

Nuke X Gemma3 1B Reasoner Testing

由NuclearAi開發

基於Google Gemma-3-1B優化的推理增強模型，通過GRPO算法和高質量數據集提升邏輯推理能力

大型語言模型

Transformers

英語開源協議:Apache-2.0 #GRPO增強推理 #對話式邏輯推理 #Unsloth優化

下載量 77

發布時間 : 3/31/2025

模型概述

該模型是針對Gemma-3-1B的優化版本，專注於提升文本生成和邏輯推理能力，適用於對話式AI場景

模型特點

推理能力增強

通過GRPO算法和專用訓練數據集顯著提升原版Gemma的推理能力

高效微調

僅使用150條高質量數據進行5步微調，30分鐘內完成訓練

Unsloth優化

採用Unsloth框架進行高效訓練和推理優化

模型能力

文本生成

邏輯推理

對話式AI

故事創作

使用案例

創意寫作

短篇故事生成

生成符合邏輯的創意短篇故事

如示例中生成的'學會飛行的貓'故事

問答系統

結構化問題解答

提供包含推理過程的詳細解答

模型會先展示思考過程再給出最終答案

🚀 核智AI微調的Gemma 3模型

本項目基於Google的Gemma 3模型進行微調，通過GRPO技術和專業數據集提升了模型的推理能力。微調後的模型在測試中表現出色，歡迎大家提供反饋，以便我們進一步優化。

🚀 快速開始

模型信息

屬性	詳情
模型類型	基於Google Gemma 3微調的對話與推理模型
訓練數據	NuclearAi/HyperThink-v1
開發者	NuclearAi
許可證	apache-2.0
基礎模型	google/gemma-3-1b-it

模型介紹

Gemma 是谷歌推出的一系列輕量級、最先進的開源模型，採用了與 Gemini 模型相同的研究和技術。不過，Gemma 在推理能力方面有所欠缺，相比其他一些模型不夠先進。

在 核智AI（Nuclear AI），我們通過利用 GRPO 技術，併為其提供專門的數據集來提升 Gemma 的推理能力。由於這是一個實驗性模型，我們使用了 150行高質量數據 並進行了 五步微調，大約耗時 30分鐘。

在測試該模型時，其表現讓我們大為驚歎！我們非常期待聽到您的反饋，以便我們能夠利用更多的步驟和更強的計算能力來微調更大版本的模型。

📦 安裝指南

安裝依賴庫

# 1. 安裝與Gemma 3兼容的特定transformers庫
pip install --no-deps git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

# 2. 安裝Unsloth（根據您的環境進行調整 - 例如，如果不在Colab上，請移除[colab-new]）
pip install "unsloth[colab-new]@git+https://github.com/unslothai/unsloth.git"

# 3. 安裝PyTorch（從https://pytorch.org/根據您的CUDA版本選擇命令）
# CUDA 12.1的示例：
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# 僅CPU的示例：
# pip install torch torchvision torchaudio

# 4. 安裝accelerate和bitsandbytes
pip install accelerate bitsandbytes

💻 使用示例

基礎用法

import torch
from unsloth import FastModel
from transformers import TextStreamer


# 1. 模型和分詞器加載
max_seq_length = 1024
model_name = "NuclearAi/Nuke_X_Gemma3_1B_Reasoner_Testing"

print(f"Loading model: {model_name}...")

model, tokenizer = FastModel.from_pretrained(
    model_name = model_name,
    max_seq_length = max_seq_length,
    dtype = None,         # 讓Unsloth選擇最佳數據類型（float16, bf16, float32）
    load_in_4bit = False, # 如果需要4位量化，請設置為True
    device_map = "auto",  # 如果可用，自動使用GPU
)
print("Model loaded.")


# 2. 定義提示結構
reasoning_start = "<think>"
reasoning_end   = "</think>"
solution_start = "<response>"
solution_end = "</response>"


system_prompt = \
f"""You are given a problem.
Think about the problem and provide your working out.
Place it between {reasoning_start} and {reasoning_end}.
Then, provide your solution between {solution_start}{solution_end}"""


# 3. 用戶輸入
user_question = "Write a short story about a cat who learns to fly." # 嘗試其他問題


# 4. 為對話模型格式化輸入
messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user",   "content": user_question},
]

text_input = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True # 對生成很重要
)


# 5. 分詞並準備生成
device = model.device if hasattr(model, 'device') else ('cuda' if torch.cuda.is_available() else 'cpu')
inputs = tokenizer([text_input], return_tensors="pt").to(device)
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)


# 6. 生成響應
print("\n--- Model Response ---")
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        streamer=streamer,
        max_new_tokens=1024,
        temperature=0.7,
        top_p=0.9,
        top_k=50,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id
    )
print("\n--- End of Response ---")