Nuke_X_Gemma3_1B_Reasoner_Testingオープンソース推論モデル - 強化された論理推論能力で効率的な意思決定をサポート

ホーム

Nuke X Gemma3 1B Reasoner Testing

NuclearAiによって開発

Google Gemma-3-1Bを最適化した推論強化モデル、GRPOアルゴリズムと高品質データセットにより論理推論能力を向上

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #GRPO推論強化 #対話型論理推論 #Unsloth最適化

ダウンロード数 77

リリース時間 : 3/31/2025

モデル概要

このモデルはGemma-3-1Bの最適化バージョンで、テキスト生成と論理推論能力の向上に焦点を当て、対話型AIシナリオに適しています

モデル特徴

推論能力強化

GRPOアルゴリズムと専用トレーニングデータセットにより、オリジナルGemmaの推論能力を大幅に向上

効率的なファインチューニング

150件の高品質データのみを使用し5ステップのファインチューニングを実施、30分以内でトレーニング完了

Unsloth最適化

Unslothフレームワークを採用した効率的なトレーニングと推論最適化

モデル能力

テキスト生成

論理推論

対話型AI

ストーリー創作

使用事例

クリエイティブライティング

ショートストーリー生成

論理的なクリエイティブなショートストーリーを生成

例として生成された'飛ぶことを学んだ猫'のストーリー

質問応答システム

構造化問題解答

推論プロセスを含む詳細な解答を提供

モデルはまず思考プロセスを示し、その後最終的な答えを提供します

🚀 モデル概要

このモデルは、Googleの軽量で最先端のオープンモデルであるGemmaをベースに、Nuclear AIによって改良されたものです。GemmaはGeminiモデルと同じ研究と技術を用いて構築されていますが、推論能力に欠けるため、他の一部のモデルと比べてやや劣っています。Nuclear AIでは、GRPOを活用し、特殊なデータセットを提供することで、Gemmaの推論能力を向上させています。

プロパティ	詳細
ベースモデル	google/gemma-3-1b-it
タグ	text-generation-inference, transformers, unsloth, GRPO, conversational, gemma3_text, reasoning
ライセンス	apache-2.0
言語	en
データセット	NuclearAi/HyperThink-v1

🚀 クイックスタート

モデルについて

開発者: NuclearAi
ライセンス: apache-2.0
ファインチューニング元のモデル: google/gemma-3-1b-it

Gemma はGoogleによる軽量で最先端のオープンモデルファミリーで、Gemini モデルと同じ研究と技術を用いて構築されています。ただし、Gemmaは推論能力に欠けており、他の一部のモデルと比べると先進性に劣ります。

Nuclear AI では、GRPO を活用し、特殊なデータセットを提供することで、Gemmaの能力を強化し、推論スキルを向上させています。これは実験的なモデルであり、150行の高品質データ を使用し、5ステップのファインチューニング を行いました。このファインチューニングには約30分かかります。

モデルをテストしたところ、その性能に本当に感銘を受けました！あなたのフィードバックを聞きたいです。それを元に、より多くのステップと計算能力を使った、より大規模なバージョンのファインチューニングを行いたいと思っています。

📦 インストール

# 1. 特定のGemma 3互換のtransformersをインストール
pip install --no-deps git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

# 2. Unslothをインストール（環境に応じて調整 - 例: Colabでない場合は[colab-new]を削除）
pip install "unsloth[colab-new]@git+https://github.com/unslothai/unsloth.git"

# 3. PyTorchをインストール（https://pytorch.org/ からCUDAバージョンに合わせたコマンドを選択）
# CUDA 12.1の例:
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# CPUのみの例:
# pip install torch torchvision torchaudio

# 4. accelerateとbitsandbytesをインストール
pip install accelerate bitsandbytes

💻 使用例

基本的な使用法

import torch
from unsloth import FastModel
from transformers import TextStreamer


# 1. モデルとトークナイザーの読み込み
max_seq_length = 1024
model_name = "NuclearAi/Nuke_X_Gemma3_1B_Reasoner_Testing"

print(f"Loading model: {model_name}...")

model, tokenizer = FastModel.from_pretrained(
    model_name = model_name,
    max_seq_length = max_seq_length,
    dtype = None,         # Unslothが最適なdtype (float16, bf16, float32)を選択
    load_in_4bit = False, # 4ビット量子化を使用する場合はTrueに設定
    device_map = "auto",  # 利用可能な場合は自動的にGPUを使用
)
print("Model loaded.")


# 2. プロンプト構造の定義
reasoning_start = "<think>"
reasoning_end   = "</think>"
solution_start = "<response>"
solution_end = "</response>"


system_prompt = \
f"""You are given a problem.
Think about the problem and provide your working out.
Place it between {reasoning_start} and {reasoning_end}.
Then, provide your solution between {solution_start}{solution_end}"""

  
# 3. ユーザー入力
user_question = "Write a short story about a cat who learns to fly." # 別の質問を試してみる

  
# 4. チャットモデル用に入力をフォーマット
messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user",   "content": user_question},
]

text_input = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True # 生成に重要
)

  
# 5. トークナイズして生成の準備をする
device = model.device if hasattr(model, 'device') else ('cuda' if torch.cuda.is_available() else 'cpu')
inputs = tokenizer([text_input], return_tensors="pt").to(device)
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)


# 6. 応答を生成
print("\n--- Model Response ---")
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        streamer=streamer,
        max_new_tokens=1024,
        temperature=0.7,
        top_p=0.9,
        top_k=50,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id
    )
print("\n--- End of Response ---")