OpenMath-Nemotron-32Bオープンソース数学推理论モデル、多数の数学ベンチマークテストで先進水準に達成！

ホーム

Openmath Nemotron 32B

nvidiaによって開発

OpenMath-Nemotron-32Bは、OpenMathReasoningデータセットでQwen2.5-32Bをファインチューニングして作成された数学推論モデルで、複数の数学ベンチマークで最先端の結果を達成しました。

大規模言語モデル

Transformers

英語#数学的推論 #競技レベルの精度 #ツール統合推論

ダウンロード数 189

リリース時間 : 4/25/2025

モデル概要

このモデルは数学的推論タスクに特化しており、思考連鎖(CoT)やツール統合推論(TIR)などの方法で複雑な数学問題を解決し、数学研究や教育分野に適しています。

モデル特徴

数学的推論能力

AIME、HMMTなどの競技問題を含む複数の数学ベンチマークで最先端の結果を達成

多様な推論モード

思考連鎖(CoT)、ツール統合推論(TIR)、生成解決策選択(GenSelect)の3つの推論モードをサポート

商用利用可能

オープンソースライセンスに基づき商用利用可能な状態で公開

再現性

完全なコード、データセット、トレーニングプロセスを提供し、結果の再現性を確保

モデル能力

数学問題解決

複雑な推論

多段階計算

数学的証明

競技数学問題解答

使用事例

教育

数学競技トレーニング

AIME、HMMTなどの数学競技に向けた学生の準備を支援

AIME24テストセットで93.3%の精度を達成

数学教育補助

教師に問題解決の考え方と段階的な解答を提供

研究

数学的推論研究

数学的自動推論と問題解決の研究に使用

🚀 OpenMath-Nemotron-32B

OpenMath-Nemotron-32Bは、Qwen/Qwen2.5-32BをOpenMathReasoningデータセットでファインチューニングすることで作成されました。このモデルは商用利用が可能です。

Evaluation Results

OpenMath-Nemotronモデルは、一般的な数学ベンチマークで最先端の結果を達成しています。評価指標として、pass@1 (maj@64) を提示しています。ここで、pass@1は64回の生成にわたる平均精度であり、maj@64は多数決の結果です。評価設定の詳細については、論文を参照してください。

モデル	AIME24	AIME25	HMMT-24-25	HLE-Math
DeepSeek-R1-Distill-Qwen-1.5B	26.8 (60.0)	21.4 (36.7)	14.2 (26.5)	2.9 (5.0)
OpenMath-Nemotron-1.5B CoT	61.6 (80.0)	49.5 (66.7)	39.9 (53.6)	5.4 (5.4)
OpenMath-Nemotron-1.5B TIR	52.0 (83.3)	39.7 (70.0)	37.2 (60.7)	2.5 (6.2)
+ Self GenSelect	83.3	70.0	62.2	7.9
+ 32B GenSelect	83.3	70.0	62.8	8.3
DeepSeek-R1-Distill-Qwen-7B	54.4 (80.0)	38.6 (53.3)	30.6 (42.9)	3.3 (5.2)
OpenMath-Nemotron-7B CoT	74.8 (80.0)	61.2 (76.7)	49.7 (57.7)	6.6 (6.6)
OpenMath-Nemotron-7B TIR	72.9 (83.3)	57.5 (76.7)	54.6 (66.3)	7.8 (10.8)
+ Self GenSelect	86.7	76.7	68.4	11.5
+ 32B GenSelect	86.7	76.7	69.9	11.9
DeepSeek-R1-Distill-Qwen-14B	65.8 (80.0)	48.4 (60.0)	40.1 (52.0)	4.2 (4.8)
OpenMath-Nemotron-14B-MIX (kaggle)	73.7 (86.7)	57.9 (73.3)	50.5 (64.8)	5.7 (6.5)
OpenMath-Nemotron-14B CoT	76.3 (83.3)	63.0 (76.7)	52.1 (60.7)	7.5 (7.6)
OpenMath-Nemotron-14B TIR	76.3 (86.7)	61.3 (76.7)	58.6 (70.9)	9.5 (11.5)
+ Self GenSelect	86.7	76.7	72.4	14.1
+ 32B GenSelect	90.0	76.7	71.9	13.7
QwQ-32B	78.1 (86.7)	66.5 (76.7)	55.9 (63.3)	9.0 (9.5)
DeepSeek-R1-Distill-Qwen-32B	66.9 (83.3)	51.8 (73.3)	39.9 (51.0)	4.8 (6.0)
OpenMath-Nemotron-32B CoT	76.5 (86.7)	62.5 (73.3)	53.0 (59.2)	8.3 (8.3)
OpenMath-Nemotron-32B TIR	78.4 (93.3)	64.2 (76.7)	59.7 (70.9)	9.2 (12.5)
+ Self GenSelect	93.3	80.0	73.5	15.7
DeepSeek-R1	79.1 (86.7)	64.3 (73.3)	53.0 (59.2)	10.5 (11.4)

私たちは、OpenMath-Nemotron-14Bのバージョンを使用して、AIMO-2 Kaggleコンペティションで一位を獲得しました！

🚀 クイックスタート

結果の再現

私たちがデータとモデルを生成するために使用したパイプラインは完全にオープンソースです！

私たちは、データ生成を含むすべての結果を完全に再現するためのすべての手順を提供しています。

モデルの使用方法

私たちのモデルは、3つの推論モードで使用できます。すなわち、連鎖思考 (CoT)、ツール統合推論 (TIR)、および生成的解選択 (GenSelect) です。

💻 使用例

基本的な使用法

CoTモードで推論を実行するには、次のコードスニペットを使用できます。

import transformers
import torch

model_id = "nvidia/OpenMath-Nemotron-32B"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {
        "role": "user", 
        "content": "Solve the following math problem. Make sure to put the answer (and only answer) inside \\boxed{}.\n\n" + 
        "What is the minimum value of $a^2+6a-7$?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=4096,
)
print(outputs[0]["generated_text"][-1]['content'])

高度な使用法

TIRまたはGenSelectモードで推論を実行する場合は、NeMo-Skillsのリファレンス実装を使用することを強くおすすめします。

なお、これらのモデルは一般的なデータで命令調整されていないため、数学の領域以外では良い回答を提供できない場合があります。

📚 詳細ドキュメント

引用

もし私たちの研究が役に立った場合は、引用を検討してください！

@article{moshkov2025aimo2,
  title   = {AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset},
  author  = {Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
  year    = {2025},
  journal = {arXiv preprint arXiv:2504.16891}
}

追加情報

ライセンス/利用規約

このモデルの使用は、CC-BY-4.0によって管理されます。追加情報は、Apache License Version 2.0を参照してください。

展開地域

グローバル

ユースケース

このモデルは、数学的推論の分野での研究を促進することを目的としています。

リリース日

Huggingface 04/23/2025

モデルアーキテクチャ

アーキテクチャタイプ: Transformerデコーダーのみの言語モデル
ネットワークアーキテクチャ: Qwen2.5

このモデルはQwen2.5-1.5Bをベースに開発されており、1.5Bのモデルパラメータを持っています。

入力

入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: 一次元 (1D)
入力に関連するその他の特性: 最大131,072トークンのコンテキスト長

出力

出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: 一次元 (1D)
出力に関連するその他の特性: 最大131,072トークンのコンテキスト長

私たちのAIモデルは、NVIDIA GPUアクセラレーションシステム上で実行するように設計および最適化されています。NVIDIAのハードウェア（例：GPUコア）とソフトウェアフレームワーク（例：CUDAライブラリ）を活用することで、CPUのみのソリューションと比較して、より高速なトレーニングと推論時間を達成しています。

ソフトウェア統合

ランタイムエンジン:
- Tensor RT / Triton
サポートされるハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Ampere
- NVIDIA Hopper
推奨オペレーティングシステム:
- Linux

モデルバージョン

倫理的配慮

NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするポリシーと実践を確立しています。利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界とユースケースの要件を満たし、予期しない製品の誤用に対応することを確認する必要があります。

このモデルの倫理的配慮の詳細については、モデルカード++の説明可能性、バイアス、安全性とセキュリティ、およびプライバシーのサブカードを参照してください。

セキュリティバグまたはNVIDIA AIに関する懸念事項は、こちらから報告してください。