thinkygemma - 4b開源偽推理專家模型，免費部署助力結構化推理應用

首頁

Thinkygemma 4b

由xsanskarx開發

基於Google Gemma-3-4b-pt微調的偽推理專家模型，專為結構化推理/偽誘導推理設計

大型語言模型

Transformers

#偽推理專家 #思維鏈微調 #結構化推理

下載量 19

發布時間 : 3/14/2025

模型概述

該模型是Google Gemma-3-4b-it的微調版本，旨在偽裝成優秀的推理者，專注於結構化推理和偽誘導推理任務。

模型特點

結構化推理能力

專為結構化推理和偽誘導推理設計，能夠生成邏輯連貫的推理過程。

高效微調

使用LoRA微調技術（r = 128, alpha = 256），在單塊NVIDIA H100上僅需9小時完成訓練。

優質訓練數據

基於2.5萬條經過驗證的思維鏈（CoT）軌跡進行訓練，數據來自DeepSeek R1和Qwen QWQ。

模型能力

文本生成

結構化推理

偽誘導推理

使用案例

教育

邏輯推理教學

用於生成邏輯推理示例，幫助學生理解複雜問題的解決過程。

生成連貫的推理鏈條，展示問題解決的逐步過程。

研究

推理能力研究

用於研究AI模型的推理能力和偽推理行為。

提供可分析的推理軌跡，幫助理解模型推理機制。

🚀 thinkygemma-4b：普通的偽推理模型

thinkygemma-4b 是基於 Gemma-3-4b-pt 微調而來的模型，適用於結構化推理或偽誘導推理，能出色地模擬優秀推理者進行推理。

屬性	詳情
基礎模型	google/gemma-3-4b-pt
任務類型	文本生成
庫名稱	transformers

🚀 快速開始

安裝依賴

from transformers import AutoTokenizer, Gemma3ForConditionalGeneration, TextStreamer
import torch

加載模型和分詞器

# Load model and tokenizer
model_id = "xsanskarx/thinkygemma-4b"
model = Gemma3ForConditionalGeneration.from_pretrained(model_id, device_map="auto").eval()
tokenizer = AutoTokenizer.from_pretrained(model_id)

定義提問函數

def ask_model(prompt: str, max_tokens=8192, temperature=0.7):
    """
    Function to ask a question to the model and stream the response.
    """
    messages = [
        {"role": "system", "content": "You are an expert math problem solver, think and reason inside <think> tags, enclose all reasoning in <think> tags, verifying logic step by step and then return your final structured answer"},
        {"role": "user", "content": prompt}
    ]

    formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False)
    inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)

    streamer = TextStreamer(tokenizer, skip_special_tokens=True)
    with torch.inference_mode():
        model.generate(**inputs, max_new_tokens=max_tokens, do_sample=True, temperature=temperature, streamer=streamer)

# Example usage
ask_model("do 2+2")

✨ 主要特性

微調模型：基於 Google 的 Gemma-3-4b-it 進行微調，適用於結構化推理和偽誘導推理。
參數情況：訓練了 18 億個參數。
訓練數據：使用來自 DeepSeek R1 和 Qwen QWQ 的 25k 行經過驗證的思維鏈（CoT）軌跡進行訓練。
後續計劃：下一步計劃進行 GRPO。

📚 詳細文檔

模型描述

這是 Google 的 Gemma-3-4b-it 的微調版本，適用於 結構化推理 / 偽誘導推理，旨在出色地模擬優秀推理者進行推理。

訓練詳情

硬件：單張 NVIDIA H100 顯卡。
訓練時間：9 小時（1 個 epoch）。
訓練方法：LoRA 微調（r = 128, alpha = 256）。
數據集：25k 條 CoT 軌跡。
基礎模型：google/gemma-3-4b-it

模型信息

📌 模型 ID：xsanskarx/thinkygemma-4b
📌 訓練的參數數量：18 億
📌 訓練數據來源：來自 DeepSeek R1 和 Qwen QWQ 的 25k 行經過驗證的思維鏈（CoT）軌跡
📌 下一步計劃：GRPO 📌 適配器倉庫：xsanskarx/thinkgemma-4b