🚀 thinkygemma-4b:普通的伪推理模型
thinkygemma-4b 是基于 Gemma-3-4b-pt 微调而来的模型,适用于结构化推理或伪诱导推理,能出色地模拟优秀推理者进行推理。
属性 |
详情 |
基础模型 |
google/gemma-3-4b-pt |
任务类型 |
文本生成 |
库名称 |
transformers |
🚀 快速开始
安装依赖
from transformers import AutoTokenizer, Gemma3ForConditionalGeneration, TextStreamer
import torch
加载模型和分词器
model_id = "xsanskarx/thinkygemma-4b"
model = Gemma3ForConditionalGeneration.from_pretrained(model_id, device_map="auto").eval()
tokenizer = AutoTokenizer.from_pretrained(model_id)
定义提问函数
def ask_model(prompt: str, max_tokens=8192, temperature=0.7):
"""
Function to ask a question to the model and stream the response.
"""
messages = [
{"role": "system", "content": "You are an expert math problem solver, think and reason inside <think> tags, enclose all reasoning in <think> tags, verifying logic step by step and then return your final structured answer"},
{"role": "user", "content": prompt}
]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False)
inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
streamer = TextStreamer(tokenizer, skip_special_tokens=True)
with torch.inference_mode():
model.generate(**inputs, max_new_tokens=max_tokens, do_sample=True, temperature=temperature, streamer=streamer)
ask_model("do 2+2")
✨ 主要特性
- 微调模型:基于 Google 的 Gemma-3-4b-it 进行微调,适用于结构化推理和伪诱导推理。
- 参数情况:训练了 18 亿个参数。
- 训练数据:使用来自 DeepSeek R1 和 Qwen QWQ 的 25k 行经过验证的思维链(CoT)轨迹进行训练。
- 后续计划:下一步计划进行 GRPO。
📚 详细文档
模型描述
这是 Google 的 Gemma-3-4b-it 的微调版本,适用于 结构化推理 / 伪诱导推理,旨在出色地模拟优秀推理者进行推理。
训练详情
- 硬件:单张 NVIDIA H100 显卡。
- 训练时间:9 小时(1 个 epoch)。
- 训练方法:LoRA 微调(r = 128, alpha = 256)。
- 数据集:25k 条 CoT 轨迹。
- 基础模型:
google/gemma-3-4b-it
模型信息
📌 模型 ID:xsanskarx/thinkygemma-4b
📌 训练的参数数量:18 亿
📌 训练数据来源:来自 DeepSeek R1 和 Qwen QWQ 的 25k 行经过验证的思维链(CoT)轨迹
📌 下一步计划:GRPO
📌 适配器仓库:xsanskarx/thinkgemma-4b