🚀 nano-aha-moment-3b
このモデルは、強化学習を用いて数学的推論タスク、具体的にはカウントダウンゲームを解くために訓練された30億パラメータの言語モデルです。Qwen2.5-3Bをベースに、GRPOを使用して微調整されています。
🚀 クイックスタート
モデルの詳細や使用方法については、以下のリンクを参照してください。
https://github.com/McGill-NLP/nano-aha-moment
✨ 主な機能
- 数学的推論タスク、特にカウントダウンゲームを解くことができます。
- 推論過程を
<think>
タグで、最終的な答えを<answer>
タグで表示します。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
このREADMEには具体的なコード例が記載されていないため、このセクションをスキップします。
📚 ドキュメント
モデルの詳細
モデルの説明
このモデルは、強化学習を用いて数学的推論タスク、具体的にはカウントダウンゲームを解くために訓練された30億パラメータの言語モデルです。Qwen2.5-3Bをベースに、GRPOを使用して微調整されています。
- 開発者: McGill-NLP Lab
- モデルの種類: 因果言語モデル
- 言語 (NLP): 英語
- ライセンス: MIT
- 微調整元のモデル: Qwen/Qwen2.5-3B
モデルのソース
用途
直接的な利用
このモデルは、数学的推論タスク、具体的にはカウントダウンゲームを解くために設計されています。このゲームでは、与えられた数値のセットを使って方程式を作成し、目標値に到達する必要があります。モデルは<think>
タグ内に推論過程を表示し、<answer>
タグ内に最終的な答えを提供します。
あなたは、リポジトリ内のチェックポイントプレイグラウンドノートブックを使用して、モデルの推論能力を対話的にテストすることができます。
想定外の利用
このモデルは、特定の数学的推論タスクに対して訓練されており、一般的な言語タスクや訓練範囲外の他のドメインではうまく機能しない可能性があります。
バイアス、リスク、および制限
このモデルは、特定の数学的推論タスクに対して訓練されており、以下の点で制限がある可能性があります。
- 一般的な言語理解と生成
- カウントダウンゲーム形式以外の複雑な数学問題の処理
- 異なる問題タイプにわたる一貫した推論の維持
推奨事項
ユーザーは以下のことを行うべきです。
- このモデルを、訓練されたカウントダウンゲームタスクに特化して使用する。
- モデルが数学的推論に焦点を当てていることを認識する。
- モデルを他のタスクに適用する際には、その制限を考慮する。
訓練の詳細
訓練データ
このモデルは、Countdown-Tasks-3to4データセットを使用して訓練されました。このデータセットには、カウントダウンゲームの問題文が含まれており、目標は、利用可能な数値のセットと基本的な算術演算を使用して目標数に到達することです。
訓練手順
前処理
訓練データは、以下のように前処理されました。
- 推論ガイダンスのためのシステムメッセージ
- カウントダウンゲームの構造化プロンプトテンプレート
- 推論ステップと答えのための特殊タグ
訓練ハイパーパラメータ
- 訓練方式: bf16混合精度
- 学習率: 1e-6
- バッチサイズ: 反復ごとに64エピソード
- オプティマイザ: AdamW
- KL係数: 0.001
- 温度: 1.0
技術仕様
モデルアーキテクチャと目的
このモデルは、Qwen2.5-3Bアーキテクチャをベースにしており、以下を使用しています。
- 効率的なアテンション計算のためのFlash Attention 2
- メモリ最適化のためのDeepSpeed ZeRO Stage 2
- 効率的な推論のためのvLLM
コンピュートインフラストラクチャ
ソフトウェア
- PyTorch 2.5.1
- Transformers 4.48.3
- DeepSpeed 0.16.4
- vLLM 0.7.3
- Flash Attention 2.7.2
引用
BibTeX:
@misc{Kazemnejad2025:NanoAhaMoment,
author = {Amirhossein Kazemnejad and Milad Aghajohari and Alessandro Sordoni and Aaron Courville and Siva Reddy},
title = {Nano Aha! Moment: Single File "RL for LLM" Library},
year = {2025},
howpublished = {\url{https://github.com/McGill-NLP/nano-aha-moment}},
note = {GitHub repository}
}
モデルカードの作成者
McGill-NLP Lab
モデルカードの問い合わせ
このモデルカードに関する質問は、McGill-NLP Labにお問い合わせください。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。