Gemma-3-4b推論オープンソース言語モデル - 推論タスクに特化し、さまざまな問題を効率的に解決

Home

Gemma 3 4b Reasoning

Developed by ericrisco

Gemma-3-4b推論はTransformerアーキテクチャに基づく言語モデルで、GRPO手法を用いてファインチューニングされ、推論タスクの最適化に特化しています。

大規模言語モデル

Transformers

EnglishOpen Source License:Apache-2.0 #数学推論の最適化 #構造化問題解決 #GRPOファインチューニング

Downloads 53

Release Time : 3/13/2025

Model Overview

このモデルは構造化された推論タスクのために設計されており、数学と論理推論、多段階問題解決、および指示に基づく推論に優れています。

Model Features

GRPO最適化

集団報酬戦略最適化手法を用いてファインチューニングを行い、モデルの推論能力を向上させます。

構造化推論

段階的な推論と構造化された説明を必要とするタスクの処理に優れています。

数学能力

数学と論理推論の問題で優れた性能を発揮します。

Model Capabilities

数学推論

論理推論

多段階問題解決

構造化説明生成

Use Cases

教育

数学問題解答

複雑な数学の応用問題を解答し、段階的な推論プロセスを提供します。

GSM8Kデータセットの数学問題を正しく解答できます。

研究

論理推論テスト

AIシステムの論理推論能力をテストおよび評価するために使用されます。

🚀 Gemma-3-4b 推論 R1 モデルカード

Gemma-3-4b Reasoningは、GRPO（Group Reward Policy Optimization）を用いて微調整された、DeepSeek-R1の手法を活用したTransformerベースの言語モデルです。このモデルカードは、推論タスクに特化して最適化された指示付きバージョンについて説明しています。

Gemma-3-4b Reasoningファミリー全体は、寛容なApache 2.0ライセンスの下で利用可能です。使用されたすべての学習スクリプトと設定は公開されています。

📚 ドキュメント

説明

Gemma-3-4b Reasoningは、構造化された論理的な問題解決や数学的推論に特化した微調整モデルです。GSM8Kデータセットを使用してGRPOで学習が行われ、モデルの段階的な推論能力と構造化された説明を提供する能力が強化されています。

学習データセット

プロパティ	詳細
モデルタイプ	Transformerベースの言語モデル
学習データ	GSM8K (英語)：数学的および論理的推論問題用の専用データセット

想定される用途

直接的な使用

このモデルは、構造化された推論タスクに特化して設計されており、以下のタスクが含まれます。

数学的および論理的推論
多段階の問題解決
指示に基づく推論

想定外の使用

このモデルは、法的および倫理的基準に違反する非倫理的または悪意のある活動には使用しないでください。

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "ericrisco/gemma-3-4b-reasoning"

prompt = "A cyclist travels 60 km in 3 hours at a constant speed. If he maintains the same speed, how many kilometers will he travel in 5 hours?"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, device_map="auto", torch_dtype=torch.bfloat16
)

messages = [{"role": "user", "content": prompt}]

input_text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)

inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(response)