🚀 Gemma-3-4b推理R1模型卡片
Gemma-3-4b推理是一個基於Transformer的語言模型,它使用GRPO(組獎勵策略優化)進行微調,並採用了DeepSeek-R1方法。本模型卡片描述的是專門為推理任務優化的指令版本。
整個Gemma-3-4b推理系列模型均採用寬鬆的Apache 2.0許可證。所有使用的訓練腳本和配置均公開可用。
🚀 快速開始
本部分將介紹如何使用Gemma-3-4b推理模型進行推理任務。以下是一個使用Python和transformers
庫的示例代碼:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "ericrisco/gemma-3-4b-reasoning"
prompt = "A cyclist travels 60 km in 3 hours at a constant speed. If he maintains the same speed, how many kilometers will he travel in 5 hours?"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name, device_map="auto", torch_dtype=torch.bfloat16
)
messages = [{"role": "user", "content": prompt}]
input_text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
✨ 主要特性
- 專注推理:Gemma-3-4b推理是一個專注於推理的微調模型,旨在擅長結構化、邏輯問題解決和數學推理。
- 增強推理能力:通過在GSM8K數據集上使用GRPO進行訓練,增強了模型逐步推理和提供結構化解釋的能力。
- 鏈式思維能力:模型展現出強大的內部鏈式思維(CoT)能力,在推理任務中始終能提供詳細的解釋和結構化的問題解決技巧。
📦 模型詳情
描述
Gemma-3-4b推理是一個專注於推理的微調模型,旨在擅長結構化、邏輯問題解決和數學推理。通過在GSM8K數據集上使用GRPO進行訓練,增強了模型逐步推理和提供結構化解釋的能力。
訓練數據集
屬性 |
詳情 |
訓練數據 |
GSM8K(英文):專門用於數學和邏輯推理問題的數據集。 |
預期用途
直接使用
該模型專門設計用於結構化推理任務,包括:
非預期用途
該模型不應用於違反法律和道德標準的不道德或惡意活動。
🔧 技術細節
性能
Gemma-3-4b推理模型展現出強大的內部**鏈式思維(CoT)**能力,在推理任務中始終能提供詳細的解釋和結構化的問題解決技巧。
侷限性
該模型主要針對數值和結構化推理進行了優化,在應用於不相關任務時可能會產生不太準確或意外的結果。
📄 許可證
整個Gemma-3-4b推理系列模型均採用寬鬆的Apache 2.0許可證。
📚 引用
- Gemma Multimodal Reasoning Model by Google
- GRPO Implementation by TRL
👨💻 作者
Eric Risco