🚀 Gemma-3-4b推理R1模型卡片
Gemma-3-4b推理是一个基于Transformer的语言模型,它使用GRPO(组奖励策略优化)进行微调,并采用了DeepSeek-R1方法。本模型卡片描述的是专门为推理任务优化的指令版本。
整个Gemma-3-4b推理系列模型均采用宽松的Apache 2.0许可证。所有使用的训练脚本和配置均公开可用。
🚀 快速开始
本部分将介绍如何使用Gemma-3-4b推理模型进行推理任务。以下是一个使用Python和transformers
库的示例代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "ericrisco/gemma-3-4b-reasoning"
prompt = "A cyclist travels 60 km in 3 hours at a constant speed. If he maintains the same speed, how many kilometers will he travel in 5 hours?"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name, device_map="auto", torch_dtype=torch.bfloat16
)
messages = [{"role": "user", "content": prompt}]
input_text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
✨ 主要特性
- 专注推理:Gemma-3-4b推理是一个专注于推理的微调模型,旨在擅长结构化、逻辑问题解决和数学推理。
- 增强推理能力:通过在GSM8K数据集上使用GRPO进行训练,增强了模型逐步推理和提供结构化解释的能力。
- 链式思维能力:模型展现出强大的内部链式思维(CoT)能力,在推理任务中始终能提供详细的解释和结构化的问题解决技巧。
📦 模型详情
描述
Gemma-3-4b推理是一个专注于推理的微调模型,旨在擅长结构化、逻辑问题解决和数学推理。通过在GSM8K数据集上使用GRPO进行训练,增强了模型逐步推理和提供结构化解释的能力。
训练数据集
属性 |
详情 |
训练数据 |
GSM8K(英文):专门用于数学和逻辑推理问题的数据集。 |
预期用途
直接使用
该模型专门设计用于结构化推理任务,包括:
非预期用途
该模型不应用于违反法律和道德标准的不道德或恶意活动。
🔧 技术细节
性能
Gemma-3-4b推理模型展现出强大的内部**链式思维(CoT)**能力,在推理任务中始终能提供详细的解释和结构化的问题解决技巧。
局限性
该模型主要针对数值和结构化推理进行了优化,在应用于不相关任务时可能会产生不太准确或意外的结果。
📄 许可证
整个Gemma-3-4b推理系列模型均采用宽松的Apache 2.0许可证。
📚 引用
- Gemma Multimodal Reasoning Model by Google
- GRPO Implementation by TRL
👨💻 作者
Eric Risco