thinkygemma - 4b开源伪推理专家模型，免费部署助力结构化推理应用

首页

Thinkygemma 4b

由 xsanskarx 开发

基于Google Gemma-3-4b-pt微调的伪推理专家模型，专为结构化推理/伪诱导推理设计

大型语言模型

Transformers

#伪推理专家 #思维链微调 #结构化推理

下载量 19

发布时间 : 3/14/2025

模型简介

该模型是Google Gemma-3-4b-it的微调版本，旨在伪装成优秀的推理者，专注于结构化推理和伪诱导推理任务。

模型特点

结构化推理能力

专为结构化推理和伪诱导推理设计，能够生成逻辑连贯的推理过程。

高效微调

使用LoRA微调技术（r = 128, alpha = 256），在单块NVIDIA H100上仅需9小时完成训练。

优质训练数据

基于2.5万条经过验证的思维链（CoT）轨迹进行训练，数据来自DeepSeek R1和Qwen QWQ。

模型能力

文本生成

结构化推理

伪诱导推理

使用案例

教育

逻辑推理教学

用于生成逻辑推理示例，帮助学生理解复杂问题的解决过程。

生成连贯的推理链条，展示问题解决的逐步过程。

研究

推理能力研究

用于研究AI模型的推理能力和伪推理行为。

提供可分析的推理轨迹，帮助理解模型推理机制。

🚀 thinkygemma-4b：普通的伪推理模型

thinkygemma-4b 是基于 Gemma-3-4b-pt 微调而来的模型，适用于结构化推理或伪诱导推理，能出色地模拟优秀推理者进行推理。

属性	详情
基础模型	google/gemma-3-4b-pt
任务类型	文本生成
库名称	transformers

🚀 快速开始

安装依赖

from transformers import AutoTokenizer, Gemma3ForConditionalGeneration, TextStreamer
import torch

加载模型和分词器

# Load model and tokenizer
model_id = "xsanskarx/thinkygemma-4b"
model = Gemma3ForConditionalGeneration.from_pretrained(model_id, device_map="auto").eval()
tokenizer = AutoTokenizer.from_pretrained(model_id)

定义提问函数

def ask_model(prompt: str, max_tokens=8192, temperature=0.7):
    """
    Function to ask a question to the model and stream the response.
    """
    messages = [
        {"role": "system", "content": "You are an expert math problem solver, think and reason inside <think> tags, enclose all reasoning in <think> tags, verifying logic step by step and then return your final structured answer"},
        {"role": "user", "content": prompt}
    ]

    formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False)
    inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)

    streamer = TextStreamer(tokenizer, skip_special_tokens=True)
    with torch.inference_mode():
        model.generate(**inputs, max_new_tokens=max_tokens, do_sample=True, temperature=temperature, streamer=streamer)

# Example usage
ask_model("do 2+2")

✨ 主要特性

微调模型：基于 Google 的 Gemma-3-4b-it 进行微调，适用于结构化推理和伪诱导推理。
参数情况：训练了 18 亿个参数。
训练数据：使用来自 DeepSeek R1 和 Qwen QWQ 的 25k 行经过验证的思维链（CoT）轨迹进行训练。
后续计划：下一步计划进行 GRPO。

📚 详细文档

模型描述

这是 Google 的 Gemma-3-4b-it 的微调版本，适用于 结构化推理 / 伪诱导推理，旨在出色地模拟优秀推理者进行推理。

训练详情

硬件：单张 NVIDIA H100 显卡。
训练时间：9 小时（1 个 epoch）。
训练方法：LoRA 微调（r = 128, alpha = 256）。
数据集：25k 条 CoT 轨迹。
基础模型：google/gemma-3-4b-it

模型信息

📌 模型 ID：xsanskarx/thinkygemma-4b
📌 训练的参数数量：18 亿
📌 训练数据来源：来自 DeepSeek R1 和 Qwen QWQ 的 25k 行经过验证的思维链（CoT）轨迹
📌 下一步计划：GRPO 📌 适配器仓库：xsanskarx/thinkgemma-4b