Llama 3.1 Nemotron Nano 8B V1 GGUF

unslothによって開発

Llama-3.1-Nemotron-Nano-8B-v1はMeta Llama-3.1-8B-Instructをベースとした推論モデルで、推論能力、人間のチャット嗜好性、タスク実行能力を強化するための追加トレーニングが施されています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #強化学習最適化 #128K長文推論 #数学コード強化

ダウンロード数 22.18k

リリース時間 : 5/11/2025

モデル概要

これは大規模言語モデル(LLM)で、モデルの正確性と効率性の良いバランスを提供し、128Kのコンテキスト長をサポート、英語とプログラミング言語に適しています。

モデル特徴

強化された推論能力

教師あり微調整と強化学習を含む多段階の追加トレーニングプロセスにより、数学、コード、推論能力が大幅に向上

効率的な推論

単一のRTX GPUで動作可能で、ローカル展開に適し、計算効率とモデル精度のバランスが取れている

長文脈サポート

128Kトークンのコンテキスト長をサポートし、長文書や複雑なタスクの処理に適している

デュアルモード推論

'推論オン'と'推論オフ'の2つのモードをサポートし、様々なシナリオのニーズに対応

モデル能力

テキスト生成

数学的推論

コード生成

指示追従

チャット対話

ツール呼び出し

RAGシステムサポート

使用事例

AIエージェントシステム

インテリジェントチャットボット

複雑な指示を理解し自然な会話が可能なAIアシスタントを構築

MT-Benchで8.1点を獲得(推論オンモード)

教育

数学問題解答

複雑な数学問題を解決し段階的な説明を提供

MATH500で95.4% pass@1を達成(推論オンモード)

ソフトウェア開発

コード生成と支援

説明に基づいて機能コードを生成またはデバッグを支援

MBPP 0-shotテストで84.6% pass@1を達成

base_model:

nvidia/Llama-3.1-Nemotron-Nano-8B-v1 library_name: transformers license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/

pipeline_tag: text-generation language:

en tags:
nvidia
unsloth
- llama-3
- pytorch

Unsloth Dynamic 2.0は優れた精度を実現し、他の主要な量子化手法を凌駕します。

Llama-3.1-Nemotron-Nano-8B-v1

モデル概要

Llama-3.1-Nemotron-Nano-8B-v1は、Meta Llama-3.1-8B-Instruct（参照モデルとも呼ばれる）を派生させた大規模言語モデル（LLM）です。推論、人間のチャット嗜好、RAGやツール呼び出しなどのタスクに向けて追加学習された推論モデルです。

Llama-3.1-Nemotron-Nano-8B-v1は、モデルの精度と効率性のバランスが優れたモデルです。Llama 3.1 8B Instructから作成され、モデル精度の向上を提供します。このモデルは単一のRTX GPUに収まり、ローカルで使用できます。コンテキスト長は128Kをサポートしています。

このモデルは、推論能力と非推論能力の両方を強化するための多段階の追加学習プロセスを経ています。これには、数学、コード、推論、ツール呼び出しのための教師ありファインチューニング段階、およびチャットと指示追従の両方に対してREINFORCE（RLOO）とOnline Reward-aware Preference Optimization（RPO）アルゴリズムを使用した複数の強化学習（RL）段階が含まれます。最終的なモデルチェックポイントは、最終的なSFTとOnline RPOのチェックポイントを統合して得られます。Qwenを使用して改善されました。

このモデルはLlama Nemotronコレクションの一部です。このファミリーの他のモデルはこちらで確認できます： Llama-3.3-Nemotron-Super-49B-v1

このモデルは商用利用可能です。

ライセンス/利用規約

利用規約：このモデルの使用はNVIDIA Open Model Licenseに準拠します。追加情報：Llama 3.1 Community License Agreement。Llamaで構築されています。

モデル開発者: NVIDIA

モデル作成日: 2024年8月から2025年3月の間にトレーニング

データの鮮度: 事前学習データのカットオフはMeta Llama 3.1 8Bに基づき2023年

使用例:

AIエージェントシステム、チャットボット、RAGシステム、その他のAI駆動アプリケーションを設計する開発者。また、一般的な指示追従タスクにも適しています。モデルの精度と計算効率のバランス（このモデルは単一のRTX GPUに収まり、ローカルで使用可能）。

リリース日:

2025年3月18日

参考文献

モデルアーキテクチャ

アーキテクチャタイプ: 密なデコーダのみのTransformerモデル

ネットワークアーキテクチャ: Llama 3.1 8B Instruct

意図された使用法

Llama-3.1-Nemotron-Nano-8B-v1は、英語とコーディング言語で使用することを目的とした汎用の推論およびチャットモデルです。その他の非英語言語（ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語）もサポートされています。

入力:

入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: 一次元（1D）
入力に関連するその他のプロパティ: 最大131,072トークンのコンテキスト長

出力:

出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: 一次元（1D）
出力に関連するその他のプロパティ: 最大131,072トークンのコンテキスト長

モデルバージョン:

1.0 (2025年3月18日)

ソフトウェア統合

ランタイムエンジン: NeMo 24.12
推奨ハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Hopper
- NVIDIA Ampere

クイックスタートと使用推奨事項:

推論モード（ON/OFF）はシステムプロンプトで制御され、以下の例のように設定する必要があります。すべての指示はユーザープロンプト内に含める必要があります
推論ONモードでは、温度を0.6、Top Pを0.95に設定することを推奨します
推論OFFモードでは貪欲デコードを使用することを推奨します
特定のテンプレートが必要な各ベンチマークで評価に使用するプロンプトのリストを提供しています
推論ONモードで推論が必要なかった場合、モデルは<think></think>を含みます。これは期待される動作です

このモデルはプレビューAPIで試すことができます。リンクはこちら：Llama-3.1-Nemotron-Nano-8B-v1。

Hugging Face Transformersライブラリでの使用例を以下に示します。推論モード（ON/OFF）はシステムプロンプトで制御されます。以下の例を参照してください。私たちのコードでは、transformersパッケージのバージョンが4.44.2以上である必要があります。

「推論ON」の例:

import torch
import transformers

model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

# thinkingは"on"または"off"に設定可能
thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

「推論OFF」の例:

import torch
import transformers

model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

# thinkingは"on"または"off"に設定可能
thinking = "off"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

一部のプロンプトでは、思考が無効になっていても、モデルは自然に応答する前に思考することを好みます。しかし、必要であれば、ユーザーはアシスタントの応答を事前に埋めることでこれを防ぐことができます。

import torch
import transformers

model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

# thinkingは"on"または"off"に設定可能
thinking = "off"

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "Solve x*(sin(x)+2)=0"}, {"role":"assistant", "content":"<think>\n</think>"}]))

推論:

エンジン: Transformers テストハードウェア:

BF16:
- 1x RTX 50シリーズGPU
- 1x RTX 40シリーズGPU
- 1x RTX 30シリーズGPU
- 1x H100-80GB GPU
- 1x A100-80GB GPU

推奨/サポート] オペレーティングシステム: Linux

トレーニングデータセット

追加学習パイプラインには、手動で注釈付けされたデータや合成データを含む、さまざまなトレーニングデータが使用されました。

コード、数学、推論の改善のための多段階の追加学習フェーズのデータは、元のLlama instructモデルの数学、コード、一般的な推論、および指示追従能力の改善をサポートするSFTおよびRLデータのコンパイルです。

プロンプトは、公開およびオープンコーパスから取得するか、合成的に生成されました。応答はさまざまなモデルによって合成的に生成され、一部のプロンプトには推論ONとOFFの両方のモードの応答が含まれ、モデルが2つのモードを区別するようにトレーニングされました。

トレーニングデータセットのデータ収集:

ハイブリッド: 自動化、人間、合成

トレーニングデータセットのデータラベリング:

評価データセット

Llama-3.1-Nemotron-Nano-8B-v1の評価には以下のデータセットを使用しました。

評価データセットのデータ収集: ハイブリッド: 人間/合成

評価データセットのデータラベリング: ハイブリッド: 人間/合成/自動

評価結果

これらの結果には「推論ON」と「推論OFF」の両方が含まれます。「推論ON」モードでは温度=0.6、top_p=0.95を使用し、「推論OFF」モードでは貪欲デコードを使用することを推奨します。すべての評価は32kのシーケンス長で行われます。ベンチマークは最大16回実行され、スコアを平均化してより正確にしています。

注: 該当する場合、プロンプトテンプレートが提供されます。ベンチマークを完了する際には、以下のプロンプトに従って正しい出力形式を解析し、以下のベンチマークを再現できるようにしてください。

MT-Bench

推論モード	スコア
推論OFF	7.9
推論ON	8.1

MATH500

推論モード	pass@1
推論OFF	36.6%
推論ON	95.4%

ユーザープロンプトテンプレート:

"以下は数学の問題です。ステップを踏んで推論し、最終的な答えを出してください。最終的な答えは\boxed{}で囲んでください。\n問題: {question}"

AIME25

推論モード	pass@1
推論OFF	0%
推論ON	47.1%

ユーザープロンプトテンプレート:

"以下は数学の問題です。ステップを踏んで推論し、最終的な答えを出してください。最終的な答えは\boxed{}で囲んでください。\n問題: {question}"

GPQA-D

推論モード	pass@1
推論OFF	39.4%
推論ON	54.1%

ユーザープロンプトテンプレート:

"この質問の正しい答えは何ですか: {question}\n選択肢:\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\nステップバイステップで考え、最終的な答え（単一の文字A、B、C、またはD）を\boxed{}に入れてください"

IFEval 平均

推論モード	Strict:Prompt	Strict:Instruction
推論OFF	74.7%	82.1%
推論ON	71.9%	79.3%

BFCL v2 Live

推論モード	スコア
推論OFF	63.9%
推論ON	63.6%

ユーザープロンプトテンプレート:

<AVAILABLE_TOOLS>{functions}</AVAILABLE_TOOLS>

{user_prompt}

MBPP 0-shot

推論モード	pass@1
推論OFF	66.1%
推論ON	84.6%

ユーザープロンプトテンプレート:

あなたは非常に知的なコーディングアシスタントであり、ユーザーの指示に対して一貫して正確で信頼性の高い応答を提供します。

@@ 指示
以下は与えられた問題とテスト例です:
{prompt}
この問題を解決するためにpythonプログラミング言語を使用してください。
コードにはテストサンプルからの関数を含め、これらの関数の入力と出力の形式がテストサンプルと一致するようにしてください。
完了したすべてのコードを1つのコードブロックで返してください。
このコードブロックは次の形式である必要があります:
```python
# あなたのコードここに
```

倫理的考慮事項:

NVIDIAは、信頼できるAIは共有された責任であると考え、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。当社の利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界と使用事例の要件を満たし、予期しない製品の誤用に対処することを確認する必要があります。

このモデルの倫理的考慮事項の詳細については、Model Card++ Explainability、Bias、Safety & Security、およびPrivacyのサブカードを参照してください。

セキュリティの脆弱性やNVIDIA AIに関する懸念はこちらから報告してください。

引用

@misc{bercovich2025llamanemotronefficientreasoningmodels,
      title={Llama-Nemotron: Efficient Reasoning Models}, 
      author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
      year={2025},
      eprint={2505.00949},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.00949}, 
}