OpenMath-Nemotron-14Bオープンソース数学推論モデル - 複数のベンチマークテストでトップ、数学の難問解決を支援

ホーム

Openmath Nemotron 14B

nvidiaによって開発

OpenMath-Nemotron-14B は Qwen2.5-14B を OpenMathReasoning データセットでファインチューニングした数学推論モデルで、複数の数学ベンチマークで最先端の結果を達成しています。

大規模言語モデル

Transformers

英語#数学的推論 #競技レベルの問題解決 #ツール統合推論

ダウンロード数 183

リリース時間 : 4/25/2025

モデル概要

このモデルは数学的推論タスクに特化しており、思考連鎖(CoT)やツール統合推論(TIR)などの方法で複雑な数学問題を解決し、数学競技問題の解答などのシナリオに適しています。

モデル特徴

数学的推論能力

AIME、HMMTなどの数学競技ベンチマークで最先端の成績を達成

複数推論モードのサポート

思考連鎖(CoT)、ツール統合推論(TIR)、生成解決策選択(GenSelect)の3つの推論モードをサポート

商用利用可能

オープンソースライセンスに基づき、直接商用利用可能

Kaggle競技での検証

AIMO-2 Kaggle競技で1位を獲得

モデル能力

数学問題解決

複雑な数学的推論

競技レベルの数学問題解答

多段階の数学的導出

使用事例

数学教育

数学競技問題解答

AIME、HMMTなどの数学競技問題を解答

AIME24テストセットで90.0%の精度を達成

数学学習支援

学生が複雑な数学問題の解決プロセスを理解するのを支援

学術研究

数学的推論研究

数学的推論能力研究のベンチマークモデルとして

🚀 OpenMath-Nemotron-14B

OpenMath-Nemotron-14Bは、Qwen/Qwen2.5-14BをOpenMathReasoningデータセットでファインチューニングすることで作成されました。このモデルは商用利用が可能です。

Evaluation Results

OpenMath-Nemotronモデルは、人気のある数学的ベンチマークで最先端の結果を達成しています。評価指標としてpass@1 (maj@64) を提示しています。ここで、pass@1は64回の生成にわたる平均精度で、maj@64は多数決の結果です。評価設定の詳細については、論文を参照してください。

モデル	AIME24	AIME25	HMMT-24-25	HLE-Math
DeepSeek-R1-Distill-Qwen-1.5B	26.8 (60.0)	21.4 (36.7)	14.2 (26.5)	2.9 (5.0)
OpenMath-Nemotron-1.5B CoT	61.6 (80.0)	49.5 (66.7)	39.9 (53.6)	5.4 (5.4)
OpenMath-Nemotron-1.5B TIR	52.0 (83.3)	39.7 (70.0)	37.2 (60.7)	2.5 (6.2)
+ Self GenSelect	83.3	70.0	62.2	7.9
+ 32B GenSelect	83.3	70.0	62.8	8.3
DeepSeek-R1-Distill-Qwen-7B	54.4 (80.0)	38.6 (53.3)	30.6 (42.9)	3.3 (5.2)
OpenMath-Nemotron-7B CoT	74.8 (80.0)	61.2 (76.7)	49.7 (57.7)	6.6 (6.6)
OpenMath-Nemotron-7B TIR	72.9 (83.3)	57.5 (76.7)	54.6 (66.3)	7.8 (10.8)
+ Self GenSelect	86.7	76.7	68.4	11.5
+ 32B GenSelect	86.7	76.7	69.9	11.9
DeepSeek-R1-Distill-Qwen-14B	65.8 (80.0)	48.4 (60.0)	40.1 (52.0)	4.2 (4.8)
OpenMath-Nemotron-14B-MIX (kaggle)	73.7 (86.7)	57.9 (73.3)	50.5 (64.8)	5.7 (6.5)
OpenMath-Nemotron-14B CoT	76.3 (83.3)	63.0 (76.7)	52.1 (60.7)	7.5 (7.6)
OpenMath-Nemotron-14B TIR	76.3 (86.7)	61.3 (76.7)	58.6 (70.9)	9.5 (11.5)
+ Self GenSelect	86.7	76.7	72.4	14.1
+ 32B GenSelect	90.0	76.7	71.9	13.7
QwQ-32B	78.1 (86.7)	66.5 (76.7)	55.9 (63.3)	9.0 (9.5)
DeepSeek-R1-Distill-Qwen-32B	66.9 (83.3)	51.8 (73.3)	39.9 (51.0)	4.8 (6.0)
OpenMath-Nemotron-32B CoT	76.5 (86.7)	62.5 (73.3)	53.0 (59.2)	8.3 (8.3)
OpenMath-Nemotron-32B TIR	78.4 (93.3)	64.2 (76.7)	59.7 (70.9)	9.2 (12.5)
+ Self GenSelect	93.3	80.0	73.5	15.7
DeepSeek-R1	79.1 (86.7)	64.3 (73.3)	53.0 (59.2)	10.5 (11.4)

私たちは、OpenMath-Nemotron-14Bのバージョンを使用して、AIMO-2 Kaggleコンペティションで一位を獲得しました！

🚀 クイックスタート

結果の再現

私たちがデータとモデルを生成するために使用したパイプラインは完全にオープンソース化されています！

私たちは、データ生成を含むすべての結果を完全に再現するためのすべての手順を提供しています。

モデルの使用方法

私たちのモデルは、3つの推論モードで使用できます。すなわち、連鎖思考 (CoT)、ツール統合推論 (TIR)、および生成的解選択 (GenSelect) です。

💻 使用例

基本的な使用法

import transformers
import torch

model_id = "nvidia/OpenMath-Nemotron-14B"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {
        "role": "user", 
        "content": "Solve the following math problem. Make sure to put the answer (and only answer) inside \\boxed{}.\n\n" + 
        "What is the minimum value of $a^2+6a-7$?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=4096,
)
print(outputs[0]["generated_text"][-1]['content'])

TIRまたはGenSelectモードで推論を実行する場合は、NeMo-Skillsのリファレンス実装を使用することを強くおすすめします。

なお、これらのモデルは一般的なデータで命令調整されていないため、数学の領域以外では良い回答を提供しない可能性があります。

📚 詳細ドキュメント

引用

もし私たちの研究が役に立った場合は、引用を検討してください！

@article{moshkov2025aimo2,
  title   = {AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset},
  author  = {Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
  year    = {2025},
  journal = {arXiv preprint arXiv:2504.16891}
}

追加情報

属性	詳情
ライセンス/使用条件	このモデルの使用は、CC-BY-4.0に基づいています。追加情報: Apache License Version 2.0
展開地域	グローバル
使用ケース	このモデルは、数学的推論の分野での研究を促進することを目的としています。
リリース日	Huggingface 2025年4月23日
モデルアーキテクチャ	アーキテクチャタイプ: Transformerデコーダーのみの言語モデルネットワークアーキテクチャ: Qwen2.5 このモデルはQwen2.5-1.5Bをベースに開発されています。このモデルには15億個のモデルパラメータがあります。
入力	入力タイプ: テキスト入力形式: 文字列入力パラメータ: 一次元 (1D) 入力に関連するその他の特性: 最大131,072トークンのコンテキスト長
出力	出力タイプ: テキスト出力形式: 文字列出力パラメータ: 一次元 (1D) 出力に関連するその他の特性: 最大131,072トークンのコンテキスト長
ソフトウェア統合	ランタイムエンジン: * Tensor RT / Triton サポートされるハードウェアマイクロアーキテクチャ互換性: * NVIDIA Ampere * NVIDIA Hopper 推奨オペレーティングシステム: * Linux
モデルバージョン	OpenMath-Nemotron-1.5B OpenMath-Nemotron-7B OpenMath-Nemotron-14B OpenMath-Nemotron-32B

倫理的な考慮事項

NVIDIAは、信頼できるAIは共同責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界と使用ケースの要件を満たし、予期しない製品の誤用に対処するようにする必要があります。

このモデルの倫理的な考慮事項の詳細については、モデルカード++の説明可能性、バイアス、安全性とセキュリティ、およびプライバシーのサブカードを参照してください。

セキュリティの脆弱性またはNVIDIA AIに関する懸念事項は、こちらから報告してください。