OpenMath2 - Llama3.1 - 8Bオープンソース数学専用モデル－無料で利用可能、複数のベンチマークテストで優れた性能を発揮

ホーム

Openmath2 Llama3.1 8B

nvidiaによって開発

OpenMath2-Llama3.1-8BはLlama3.1-8B-Baseモデルを基に、OpenMathInstruct-2データセットでファインチューニングされた数学専用モデルで、複数の数学ベンチマークテストで優れた性能を発揮します。

大規模言語モデル

Transformers

英語#数学推論最適化 #OpenMathInstruct-2ファインチューニング #MATHベンチマーク向上

ダウンロード数 930

リリース時間 : 4/25/2025

モデル概要

このモデルは数学問題解決に特化しており、MATHなどの数学ベンチマークで元のLlama3.1-8B-Instructモデルを大幅に上回ります。

モデル特徴

数学性能向上

MATHベンチマークでLlama3.1-8B-Instruct比15.9%向上

専門数学トレーニング

OpenMathInstruct-2データセットを使用し数学問題に特化してファインチューニング

オープンソースプロセス

データ生成とモデルトレーニングプロセスが完全オープンソース

モデル能力

数学問題解答

数学式求解

数学推論

使用事例

教育

数学問題解答

代数、幾何学など様々な数学問題を解決

GSM8Kテストセットで91.7%の精度を達成

数学競技準備

AMC、AIMEなどの数学競技の準備を支援

AMC 2023テストで16/40の正解率

🚀 OpenMath2-Llama3.1-8B

OpenMath2-Llama3.1-8Bは、Llama3.1-8B-BaseをOpenMathInstruct-2でファインチューニングすることで得られたモデルです。このモデルは、評価したすべての一般的な数学ベンチマークでLlama3.1-8B-Instructを上回っており、特にMATHでは15.9%上回っています。

Performance of Llama-3.1-8B-Instruct as it is trained on increasing proportions of OpenMathInstruct-2

Comparison of OpenMath2-Llama3.1-8B vs. Llama-3.1-8B-Instruct across MATH levels

モデル	GSM8K	MATH	AMC 2023	AIME 2024	Omni-MATH
Llama3.1-8B-Instruct	84.5	51.9	9/40	2/30	12.7
OpenMath2-Llama3.1-8B (nemo \| HF)	91.7	67.8	16/40	3/30	22.0
+ majority@256	94.1	76.1	23/40	3/30	24.6
Llama3.1-70B-Instruct	95.8	67.9	19/40	6/30	19.0
OpenMath2-Llama3.1-70B (nemo \| HF)	94.9	71.9	20/40	4/30	23.1
+ majority@256	96.0	79.6	24/40	6/30	27.6

データとモデルを生成するために使用したパイプラインは完全にオープンソースです！

詳細については、論文を参照してください！

🚀 クイックスタート

モデルの使い方

当社のモデルは、Llama3.1-instructモデルと同じ「チャット形式」（同じシステム/ユーザー/アシスタントトークン）でトレーニングされています。ただし、これらのモデルは一般的なデータで命令調整されていないため、数学の領域以外では良い回答を提供できない場合があります。

これらのモデルで推論を実行するには、当社のリポジトリ内の指示を使用することをお勧めしますが、以下はtransformers APIを通じて実行する方法の例です。

💻 使用例

基本的な使用法

import transformers
import torch

model_id = "nvidia/OpenMath2-Llama3.1-8B"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {
        "role": "user", 
        "content": "Solve the following math problem. Make sure to put the answer (and only answer) inside \\boxed{}.\n\n" + 
        "What is the minimum value of $a^2+6a-7$?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=4096,
)
print(outputs[0]["generated_text"][-1]['content'])

再現方法

当社の結果を完全に再現するためのすべての指示を提供しています。

📚 詳細ドキュメント

引用

当社の研究が役に立った場合は、引用を検討してください！

@article{toshniwal2024openmath2,
  title   = {OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data},
  author  = {Shubham Toshniwal and Wei Du and Ivan Moshkov and  Branislav Kisacanin and Alexan Ayrapetyan and Igor Gitman},
  year    = {2024},
  journal = {arXiv preprint arXiv:2410.01560}
}