N

Nano Aha Moment 3b

McGill-NLPによって開発
30億パラメータの言語モデルで、数学推論タスク、特にカウントダウンゲームを解決するために強化学習で訓練されています。
ダウンロード数 55
リリース時間 : 3/31/2025

モデル概要

Qwen2.5-3Bベースの言語モデルで、GRPOを使用してファインチューニングされ、数学推論タスク、特にカウントダウンゲームに特化しています。

モデル特徴

数学推論最適化
カウントダウンゲームなどの数学推論タスクに特化して強化学習で訓練
構造化推論出力
<think>タグで推論過程を表示し、<answer>タグで最終解答を提供
効率的な訓練技術
Flash Attention 2、DeepSpeed ZeRO Stage 2、vLLMを使用して効率的な訓練と推論を実現

モデル能力

数学推論
カウントダウンゲーム解決
構造化推論過程表示

使用事例

教育
数学的思考訓練
学生がカウントダウンゲームなどの数学問題を解決する能力を訓練するために使用
完全な解答手順と思考過程を表示可能
ゲーム
カウントダウンゲーム支援
プレイヤーがカウントダウンゲームの数学的難題を解決するのを支援
複数の可能な解決策を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase