nano - aha - moment - 3bオープンソース言語モデル - 数学的推論とカウントダウンゲームの難題を無料で解決

ホーム

Nano Aha Moment 3b

McGill-NLPによって開発

30億パラメータの言語モデルで、数学推論タスク、特にカウントダウンゲームを解決するために強化学習で訓練されています。

大規模言語モデル

Transformers

#数学推論強化学習 #カウントダウンゲーム専用 #GRPOファインチューニング

ダウンロード数 55

リリース時間 : 3/31/2025

モデル概要

Qwen2.5-3Bベースの言語モデルで、GRPOを使用してファインチューニングされ、数学推論タスク、特にカウントダウンゲームに特化しています。

モデル特徴

数学推論最適化

カウントダウンゲームなどの数学推論タスクに特化して強化学習で訓練

構造化推論出力

<think>タグで推論過程を表示し、<answer>タグで最終解答を提供

効率的な訓練技術

Flash Attention 2、DeepSpeed ZeRO Stage 2、vLLMを使用して効率的な訓練と推論を実現

モデル能力

数学推論

カウントダウンゲーム解決

構造化推論過程表示

使用事例

教育

数学的思考訓練

学生がカウントダウンゲームなどの数学問題を解決する能力を訓練するために使用

完全な解答手順と思考過程を表示可能

ゲーム

カウントダウンゲーム支援

プレイヤーがカウントダウンゲームの数学的難題を解決するのを支援

複数の可能な解決策を提供

🚀 nano-aha-moment-3b

このモデルは、強化学習を用いて数学的推論タスク、具体的にはカウントダウンゲームを解くために訓練された30億パラメータの言語モデルです。Qwen2.5-3Bをベースに、GRPOを使用して微調整されています。

🚀 クイックスタート

モデルの詳細や使用方法については、以下のリンクを参照してください。 https://github.com/McGill-NLP/nano-aha-moment

✨ 主な機能

数学的推論タスク、特にカウントダウンゲームを解くことができます。
推論過程を<think>タグで、最終的な答えを<answer>タグで表示します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

このREADMEには具体的なコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデルの詳細

モデルの説明

開発者: McGill-NLP Lab
モデルの種類: 因果言語モデル
言語 (NLP): 英語
ライセンス: MIT
微調整元のモデル: Qwen/Qwen2.5-3B

モデルのソース

リポジトリ: https://github.com/McGill-NLP/nano-aha-moment
デモ: リポジトリのチェックポイントプレイグラウンドノートブックにて利用可能です。

用途

直接的な利用

このモデルは、数学的推論タスク、具体的にはカウントダウンゲームを解くために設計されています。このゲームでは、与えられた数値のセットを使って方程式を作成し、目標値に到達する必要があります。モデルは<think>タグ内に推論過程を表示し、<answer>タグ内に最終的な答えを提供します。

あなたは、リポジトリ内のチェックポイントプレイグラウンドノートブックを使用して、モデルの推論能力を対話的にテストすることができます。

想定外の利用

このモデルは、特定の数学的推論タスクに対して訓練されており、一般的な言語タスクや訓練範囲外の他のドメインではうまく機能しない可能性があります。

バイアス、リスク、および制限

このモデルは、特定の数学的推論タスクに対して訓練されており、以下の点で制限がある可能性があります。

一般的な言語理解と生成
カウントダウンゲーム形式以外の複雑な数学問題の処理
異なる問題タイプにわたる一貫した推論の維持

推奨事項

ユーザーは以下のことを行うべきです。

このモデルを、訓練されたカウントダウンゲームタスクに特化して使用する。
モデルが数学的推論に焦点を当てていることを認識する。
モデルを他のタスクに適用する際には、その制限を考慮する。

訓練の詳細

訓練データ

このモデルは、Countdown-Tasks-3to4データセットを使用して訓練されました。このデータセットには、カウントダウンゲームの問題文が含まれており、目標は、利用可能な数値のセットと基本的な算術演算を使用して目標数に到達することです。

訓練手順

前処理

訓練データは、以下のように前処理されました。

推論ガイダンスのためのシステムメッセージ
カウントダウンゲームの構造化プロンプトテンプレート
推論ステップと答えのための特殊タグ

訓練ハイパーパラメータ

訓練方式: bf16混合精度
学習率: 1e-6
バッチサイズ: 反復ごとに64エピソード
オプティマイザ: AdamW
KL係数: 0.001
温度: 1.0

技術仕様

モデルアーキテクチャと目的

このモデルは、Qwen2.5-3Bアーキテクチャをベースにしており、以下を使用しています。

効率的なアテンション計算のためのFlash Attention 2
メモリ最適化のためのDeepSpeed ZeRO Stage 2
効率的な推論のためのvLLM

コンピュートインフラストラクチャ

ソフトウェア

PyTorch 2.5.1
Transformers 4.48.3
DeepSpeed 0.16.4
vLLM 0.7.3
Flash Attention 2.7.2

引用

BibTeX:

@misc{Kazemnejad2025:NanoAhaMoment,
  author       = {Amirhossein Kazemnejad and Milad Aghajohari and Alessandro Sordoni and Aaron Courville and Siva Reddy},
  title        = {Nano Aha! Moment: Single File "RL for LLM" Library},
  year         = {2025},
  howpublished = {\url{https://github.com/McGill-NLP/nano-aha-moment}},
  note         = {GitHub repository}
}