Llama 3 3 Nemotron Super 49B V1 GGUF

unslothによって開発

Llama-3.3-Nemotron-Super-49B-v1 は大規模言語モデルで、Meta Llama-3.3-70B-Instruct を改良し、推論能力、人間とのチャット適性、タスク実行能力を強化し、128Kトークンのコンテキスト長をサポートします。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #128K長文推論 #数学コード強化 #NAS効率的アーキテクチャ

ダウンロード数 814

リリース時間 : 5/22/2025

モデル概要

このモデルは推論とチャット用のモデルで、英語とプログラミング言語に適しており、複数の非英語言語をサポートします。多段階の追加トレーニングプロセスを経て、数学、コード、推論、ツール呼び出しの能力が強化されています。

モデル特徴

効率的な推論

神経アーキテクチャサーチ（NAS）による最適化で、精度と効率の優れたバランスを実現し、メモリ使用量を削減、単一GPUに適応。

多段階追加トレーニング

教師あり微調整と強化学習（RL）段階を経て、数学、コード、推論、指示追従能力を強化。

長文コンテキストサポート

128Kトークンのコンテキスト長をサポートし、複雑なタスクと大規模データ処理に適しています。

モデル能力

テキスト生成

数学的推論

コード生成

ツール呼び出し

多言語サポート

指示追従

使用事例

AIエージェントシステム

チャットボット

効率的なチャットボット構築に使用でき、多輪対話と複雑な指示をサポートします。

MT-Benchでスコア9.17を獲得。

RAGシステム

検索拡張生成（RAG）システム構築に使用し、大規模なコンテキスト情報を処理します。

128Kトークンのコンテキスト長をサポート。

数学とコード

数学問題解決

複雑な数学問題を解決し、段階的な推論と最終回答生成をサポートします。

MATH500でpass@1が96.6（推論有効）。

コード生成

Pythonなど複数のプログラミング言語をサポートする高品質なコードを生成します。

MBPP 0-shotでpass@1が91.3（推論有効）。

base_model:

nvidia/Llama-3_3-Nemotron-Super-49B-v1 library_name: transformers license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/

pipeline_tag: text-generation language:

en tags:
nvidia
unsloth
- llama-3
- pytorch

Unsloth Dynamic 2.0は優れた精度を達成し、他の主要な量子化手法を凌駕します。

Llama-3.3-Nemotron-Super-49B-v1

モデル概要

精度比較グラフ

Llama-3.3-Nemotron-Super-49B-v1は、Meta Llama-3.3-70B-Instruct（参照モデル）を派生させた大規模言語モデル（LLM）です。推論、人間のチャット嗜好、RAGやツール呼び出しなどのタスクに向けて追加学習された推論モデルです。このモデルは128Kトークンのコンテキスト長をサポートしています。

Llama-3.3-Nemotron-Super-49B-v1は、モデルの精度と効率性の間で優れたトレードオフを提供するモデルです。効率性（スループット）は直接コスト削減につながります。新しいニューラルアーキテクチャサーチ（NAS）アプローチにより、モデルのメモリフットプリントを大幅に削減し、大規模なワークロードや単一GPU（H200）での高負荷実行を可能にしました。このNASアプローチにより、精度と効率性のトレードオフ曲線から所望のポイントを選択できます。NASアプローチの詳細については、この論文を参照してください。

モデルは、推論能力と非推論能力の両方を強化する多段階の追加学習プロセスを経ています。これには、数学、コード、推論、ツール呼び出しのための教師ありファインチューニング段階と、チャットおよび指示追従のためのREINFORCE（RLOO）およびOnline Reward-aware Preference Optimization（RPO）アルゴリズムを使用した複数の強化学習（RL）段階が含まれます。最終的なモデルチェックポイントは、最終的なSFTとOnline RPOのチェックポイントを統合して得られます。モデルのトレーニング方法の詳細については、技術レポートとブログを参照してください。トレーニングプロセス

このモデルはLlama Nemotronコレクションの一部です。このファミリーの他のモデルは以下で見つけられます：

このモデルは商用利用可能です。

ライセンス/利用規約

管理規約：このモデルの使用はNVIDIA Open Model Licenseに準拠します。
追加情報：Llama 3.3 Community License Agreement。Llamaで構築。

モデル開発者: NVIDIA

モデル作成時期: 2024年11月から2025年2月にかけてトレーニング

データ鮮度: 事前学習データはMeta Llama 3.3 70Bに準じ2023年がカットオフ

使用例:

AIエージェントシステム、チャットボット、RAGシステム、その他のAI駆動アプリケーションを設計する開発者。一般的な指示追従タスクにも適しています。

リリース日:

2025年3月18日

参考文献

モデルアーキテクチャ

アーキテクチャタイプ: 密なデコーダのみのTransformerモデル
ネットワークアーキテクチャ: Llama 3.3 70B Instruct、ニューラルアーキテクチャサーチ（NAS）でカスタマイズ

このモデルはMetaのLlama-3.3-70B-Instructを派生させ、ニューラルアーキテクチャサーチ（NAS）を使用しています。NASアルゴリズムは非標準的で非反復的なブロックをもたらします。これには以下が含まれます：

スキップアテンション：一部のブロックではアテンションが完全にスキップされるか、単一の線形層に置き換えられます。
可変FFN：FFN層の拡張/圧縮比率はブロック間で異なります。

参照モデルのブロックごとの蒸留を利用し、各ブロックに対して品質と計算複雑性の異なるトレードオフを提供する複数のバリアントを作成しました（詳細は後述）。その後、必要なスループットとメモリ（単一のH100-80GB GPUに最適化）を満たしながら品質劣化を最小限に抑えるモデルを作成するためにブロックを探索しました。モデルはその後、英語の単一および複数ターンチャットユースケースに焦点を当てた知識蒸留（KD）を受けました。KDステップには、FineWeb、Buzz-V1.2、Dolmaの3つのデータセットの混合からなる400億トークンが含まれていました。

想定用途

Llama-3.3-Nemotron-Super-49B-v1は、英語とプログラミング言語で使用することを目的とした汎用推論およびチャットモデルです。その他の非英語言語（ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語）もサポートされています。

入力

入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: 一次元（1D）
入力関連のその他のプロパティ: 最大131,072トークンのコンテキスト長

出力

出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: 一次元（1D）
出力関連のその他のプロパティ: 最大131,072トークンのコンテキスト長

モデルバージョン

1.0 (2025年3月18日)

ソフトウェア統合

ランタイムエンジン: Transformers
推奨ハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Hopper
- NVIDIA Ampere

クイックスタートと使用推奨事項:

推論モード（ON/OFF）はシステムプロンプトで制御され、以下の例のように設定する必要があります。すべての指示はユーザープロンプト内に含める必要があります
推論ONモードでは、温度を0.6、Top Pを0.95に設定することを推奨します
推論OFFモードでは貪欲デコードを使用することを推奨します
特定のテンプレートが必要なベンチマークごとに評価用のプロンプトリストを提供しています
推論ONモードで推論が必要なかった場合、モデルは<think></think>を含みます、これは期待される動作です

このモデルはプレビューAPIで試すことができます：Llama-3_3-Nemotron-Super-49B-v1。

Transformersで使用する

Hugging Face Transformersライブラリでの使用例を以下に示します。推論モード（ON/OFF）はシステムプロンプトで制御されます。以下の例を参照してください

transformersパッケージはバージョン4.48.3を使用することを推奨します。
推論ONの例:

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

推論OFFの例:

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

# Thinkingは"on"または"off"に設定可能
thinking = "off"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

vLLMで使用する

pip install vllm==0.8.3

vLLMでサーブする例:

python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager

推論:

エンジン:

Transformers

テストハードウェア:

FP8: 1x NVIDIA H100-80GB GPU（近日公開予定！）
BF16:
- 2x NVIDIA H100-80GB
- 2x NVIDIA A100-80GB GPU

[推奨/サポート] オペレーティングシステム: Linux

トレーニングデータセット

知識蒸留段階の前に、多様なトレーニングデータが使用され、その中にはFineWeb、Buzz-V1.2、Dolmaの3つが含まれていました。

コード、数学、推論能力の向上のための多段階追加学習フェーズのデータは、元のLlama指示モデルの数学、コード、一般的な推論、指示追従能力の改善をサポートするSFTとRLデータのコンパイルです。

このモデルリリースと併せて、NVIDIAは追加学習データの3000万サンプルを公開し、パブリックで許容的なものとしています。Llama-Nemotron-Postraining-Dataset-v1を参照してください。

ドメインの分布は以下の通りです：

カテゴリー	値
数学	19,840,970
コード	9,612,677
科学	708,920
指示追従	56,339
チャット	39,792
安全性	31,426

プロンプトは公開されたオープンコーパスまたは合成的に生成されたものから収集されました。応答はさまざまなモデルによって合成的に生成され、一部のプロンプトには推論ONとOFFの両方のモードの応答が含まれ、モデルが2つのモードを区別するようにトレーニングされました。

トレーニングデータセットのデータ収集:

ハイブリッド：自動化、人間、合成

トレーニングデータセットのデータラベリング:

ハイブリッド：自動化、人間、合成

評価データセット

Llama-3.3-Nemotron-Super-49B-v1の評価には以下のデータセットを使用しました。

評価データセットのデータ収集:

ハイブリッド：人間/合成

評価データセットのデータラベリング:

ハイブリッド：人間/合成/自動

評価結果

これらの結果には「推論ON」と「推論OFF」の両方が含まれます。「推論ON」モードでは温度=0.6、top_p=0.95を、「推論OFF」モードでは貪欲デコードを使用することを推奨します。すべての評価は32kシーケンス長で行われました。ベンチマークは最大16回実行され、より正確にするためにスコアが平均化されています。

注：該当する場合、プロンプトテンプレートが提供されます。ベンチマークを完了する際は、以下のベンチマークを再現するために、提供されたプロンプトに従って正しい出力形式を解析していることを確認してください。

Arena-Hard

推論モード	スコア
推論OFF	88.3

MATH500

推論モード	pass@1
推論OFF	74.0
推論ON	96.6

ユーザープロンプトテンプレート:

"以下は数学の問題です。ステップごとに推論し、最終的な答えを出してください。最終的な答えは\boxed{}で囲んでください。\n問題: {question}"

AIME25

推論モード	pass@1
推論OFF	13.33
推論ON	58.4

ユーザープロンプトテンプレート:

"以下は数学の問題です。ステップごとに推論し、最終的な答えを出してください。最終的な答えは\boxed{}で囲んでください。\n問題: {question}"

GPQA

推論モード	pass@1
推論OFF	50
推論ON	66.67

ユーザープロンプトテンプレート:

"この質問の正しい答えは何ですか: {question}\n選択肢:\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\nステップごとに考え、最終的な答え（単一の文字A、B、C、またはD）を\boxed{}に入れてください"

IFEval

推論モード	Strict:Instruction
推論OFF	89.21

BFCL V2 Live

推論モード	スコア
推論OFF	73.7

ユーザープロンプトテンプレート:

あなたは関数構成の専門家です。質問と可能な関数のセットが与えられます。
質問に基づいて、目的を達成するために1つ以上の関数/ツール呼び出しを行う必要があります。
どの関数も使用できない場合は指摘してください。与えられた質問に関数に必要なパラメータが不足している場合も指摘してください。ツール呼び出しセクションでは関数呼び出しのみを返す必要があります。

いずれかの関数を呼び出すことを決定した場合、<TOOLCALL>[func_name1(params_name1=params_value1, params_name2=params_value2...), func_name2(params)]</TOOLCALL>の形式で記述する必要があります。

応答に他のテキストを含めてはいけません。
以下は呼び出し可能な関数のJSON形式リストです。

<AVAILABLE_TOOLS>{functions}</AVAILABLE_TOOLS>

{user_prompt}

MBPP 0-shot

推論モード	pass@1
推論OFF	84.9
推論ON	91.3

ユーザープロンプトテンプレート:

あなたは非常に知的なコーディングアシスタントで、ユーザーの指示に対して常に正確で信頼性の高い応答を提供します。

@@ 指示
以下は与えられた問題とテスト例です：
{prompt}
この問題を解決するためにpythonプログラミング言語を使用してください。
コードにはテストサンプルからの関数を含め、これらの関数の入力と出力の形式がテストサンプルと一致するようにしてください。
完了したすべてのコードを1つのコードブロックで返してください。
このコードブロックは次の形式である必要があります：
```python
# ここにコードを記述
```

MT-Bench

推論モード	スコア
推論OFF	9.17

倫理的考慮事項:

NVIDIAは、信頼できるAIは共有責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーとプラクティスを確立しています。当社の利用規約に従ってダウンロードまたは使用する場合、開発者は内部モデルチームと協力して、このモデルが関連業界とユースケースの要件を満たし、予期しない製品の誤用に対処していることを確認する必要があります。

このモデルの倫理的考慮事項の詳細については、Model Card++ 説明可能性、バイアス、安全性＆セキュリティ、プライバシーサブカードを参照してください。

セキュリティの脆弱性またはNVIDIA AIに関する懸念はこちらから報告してください。

引用

@misc{bercovich2025llamanemotronefficientreasoningmodels,
      title={Llama-Nemotron: Efficient Reasoning Models}, 
      author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
      year={2025},
      eprint={2505.00949},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.00949}, 
}