Gemma-3-4b推理開源語言模型 - 專注推理任務，高效解決各類問題

首頁

Gemma 3 4b Reasoning

由ericrisco開發

Gemma-3-4b推理是基於Transformer架構的語言模型，採用GRPO方法微調，專注於推理任務優化。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #數學推理優化 #結構化問題求解 #GRPO微調

下載量 53

發布時間 : 3/13/2025

模型概述

該模型專為結構化推理任務設計，擅長數學與邏輯推理、多步驟問題求解和基於指令的推理。

模型特點

GRPO優化

採用群體獎勵策略優化方法進行微調，提升模型推理能力。

結構化推理

擅長處理需要逐步推理和結構化解釋的任務。

數學能力

在數學和邏輯推理問題上表現優異。

模型能力

數學推理

邏輯推理

多步驟問題求解

結構化解釋生成

使用案例

教育

數學問題解答

解答覆雜的數學應用題，提供逐步推理過程。

能夠正確解答GSM8K數據集中的數學問題。

研究

邏輯推理測試

用於測試和評估AI系統的邏輯推理能力。

🚀 Gemma-3-4b推理R1模型卡片

Gemma-3-4b推理是一個基於Transformer的語言模型，它使用GRPO（組獎勵策略優化）進行微調，並採用了DeepSeek-R1方法。本模型卡片描述的是專門為推理任務優化的指令版本。

整個Gemma-3-4b推理系列模型均採用寬鬆的Apache 2.0許可證。所有使用的訓練腳本和配置均公開可用。

🚀 快速開始

本部分將介紹如何使用Gemma-3-4b推理模型進行推理任務。以下是一個使用Python和transformers庫的示例代碼：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "ericrisco/gemma-3-4b-reasoning"

prompt = "A cyclist travels 60 km in 3 hours at a constant speed. If he maintains the same speed, how many kilometers will he travel in 5 hours?"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, device_map="auto", torch_dtype=torch.bfloat16
)

messages = [{"role": "user", "content": prompt}]

input_text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)

inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(response)