Llama 3 1 Nemotron Ultra 253B V1

nvidiaによって開発

Meta Llama-3.1-405B-Instructをベースとした大規模言語モデルで、ニューラルアーキテクチャサーチ技術により最適化され、128Kトークンの文脈長をサポートし、推論、対話、命令追従タスクに適しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #超長文脈推論 #マルチタスク命令最適化 #効率的な推論アーキテクチャ

ダウンロード数 21.78k

リリース時間 : 4/7/2025

モデル概要

Llama-3.1-Nemotron-Ultra-253B-v1はNVIDIAが開発した大規模言語モデルで、効率的な推論と複雑なタスクのために設計されており、多言語と長文脈処理をサポートします。

モデル特徴

効率的な推論最適化

ニューラルアーキテクチャサーチ(NAS)技術によりモデル構造を最適化し、メモリ使用量を大幅に削減し、推論効率を向上させます。

長文脈サポート

最大131,072トークンの文脈処理能力をサポートし、複雑なタスクの処理に適しています。

多段階トレーニング

教師あり微調整と強化学習の多段階トレーニングを経て、数学、プログラミング、推論、対話能力を最適化しました。

推論モード制御

システムプロンプトによる詳細推論モードのオン/オフをサポートし、さまざまなアプリケーションシナリオのニーズに対応します。

モデル能力

テキスト生成

数学的推論

プログラミング支援

多言語処理

命令追従

ツール呼び出し

RAGシステムサポート

使用事例

AIエージェントシステム

チャットボット

高性能な対話システムを構築し、複雑なインタラクションとマルチターン対話をサポートします。

対話タスクで優れたパフォーマンスを発揮

RAGシステム

検索ベースの生成タスクをサポートし、長文書と複雑なクエリを処理します。

128Kトークンの文脈をサポート

専門分野アプリケーション

医学質問応答

専門的な医学質問に回答し、診断支援をサポートします。

GPQAテスト通過率76.01%

数学コンテスト

複雑な数学問題を解決し、段階的な推論をサポートします。

AIME25テスト通過率72.50%

library_name: transformers license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/ja-jp/agreements/enterprise-software/nvidia-open-model-license/

pipeline_tag: text-generation language:

en tags:
nvidia
llama-3
pytorch

Llama-3.1-Nemotron-Ultra-253B-v1

モデル概要

精度プロット

Llama-3.1-Nemotron-Ultra-253B-v1は、Meta Llama-3.1-405B-Instruct（参照モデル）を派生させた大規模言語モデル（LLM）です。推論、人間のチャット嗜好、RAGやツール呼び出しなどのタスクに向けて追加学習された推論モデルで、128Kトークンのコンテキスト長をサポートします。このモデルは推論に8xH100ノード1台で動作します。

Llama-3.1-Nemotron-Ultra-253B-v1は、モデルの精度と効率性のバランスが優れたモデルです。効率性（スループット）は直接コスト削減につながります。新しいニューラルアーキテクチャサーチ（NAS）手法を用いて、モデルのメモリフットプリントを大幅に削減し、大規模なワークロードやデータセンター環境でモデルを実行する際に必要なGPU数を減らしています。このNAS手法により、精度と効率性のトレードオフの中から所望のポイントを選択できます。さらに、モデルを垂直方向に圧縮する新しい方法（詳細はこちら）を使用することで、レイテンシも大幅に改善されています。

このモデルは、推論能力と非推論能力の両方を強化する多段階の追加学習プロセスを経ています。これには、数学、コード、推論、チャット、ツール呼び出しのための教師ありファインチューニング段階と、推論、チャット、指示追従のためのGroup Relative Policy Optimization（GRPO）アルゴリズムを用いた複数の強化学習（RL）段階が含まれます。

このモデルは商用利用可能です。

モデルのトレーニング方法の詳細については、技術レポートとブログをご覧ください。

トレーニングフローチャート

このモデルはLlama Nemotronコレクションの一部です。このファミリーの他のモデルは以下で見つけられます：

ライセンス/利用規約

管理規約：このモデルの使用はNVIDIA Open Model Licenseによって管理されます。追加情報：Llama 3.1 Community License Agreement。Llamaで構築。

モデル開発者: NVIDIA

モデル作成日: 2024年11月から2025年4月の間にトレーニング

データ鮮度: 事前学習データのカットオフはLlama-3.1-405B-Instructに従い2023年

使用例:

AIエージェントシステム、チャットボット、RAGシステム、その他のAI駆動アプリケーションを設計する開発者。また、典型的な指示追従タスクにも適しています。

リリース日:

2025年4月7日

参考文献

モデルアーキテクチャ

アーキテクチャタイプ: 密なデコーダのみのTransformerモデル
ネットワークアーキテクチャ: Llama-3.1-405B-Instruct、ニューラルアーキテクチャサーチ（NAS）によりカスタマイズ

**このモデルはLlama-3.1-405B-Instructに基づいて開発されました
** このモデルは253Bのモデルパラメータを持ちます

このモデルはLlama 3.1-405B-Instructを派生させ、ニューラルアーキテクチャサーチ（NAS）を使用しています。NASアルゴリズムは非標準的で非反復的なブロックをもたらします。これには以下が含まれます：

スキップアテンション：一部のブロックでは、アテンションが完全にスキップされるか、単一の線形層に置き換えられます。
可変FFN：FFN層の拡張/圧縮比率はブロック間で異なります。
FFN融合：複数の連続するアテンション層がスキップされると、複数のFFNのシーケンスが生じることがありますが、そのシーケンスはより少ない数の広いFFN層に融合されます。

参照モデルの各ブロックに対して、品質と計算複雑性の異なるトレードオフを提供する複数のバリアントを作成します（詳細は後述）。その後、必要なスループットとメモリを満たしつつ品質劣化を最小限に抑えるモデルを作成するためにブロックを探索します。性能を回復させるため、モデルは最初に650億トークンの知識蒸留（KD）を受け、その後880億トークンの継続事前学習（CPT）フェーズを経ます。

意図された使用法

Llama-3.1-Nemotron-Ultra-253B-v1は、英語とコーディング言語で使用することを意図した汎用推論およびチャットモデルです。その他の非英語言語（ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語）もサポートされています。

入力

入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: 一次元（1D）
入力に関するその他のプロパティ: 最大131,072トークンのコンテキスト長

出力

出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: 一次元（1D）
出力に関するその他のプロパティ: 最大131,072トークンのコンテキスト長

ソフトウェア統合

ランタイムエンジン: Transformers
推奨ハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Hopper
- NVIDIA Ampere
推奨オペレーティングシステム: Linux

モデルバージョン

1.0 (2025年4月7日)

クイックスタートと使用推奨事項:

推論モード（ON/OFF）はシステムプロンプトで制御され、以下の例のように設定する必要があります。すべての指示はユーザープロンプト内に含める必要があります
推論ONモードでは、温度を0.6、Top Pを0.95に設定することを推奨します
推論OFFモードでは、貪欲デコード（温度0）を使用することを推奨します
制御プロンプト以外の追加のシステムプロンプトは追加せず、すべての指示はユーザークエリに入れることを推奨します
特定のテンプレートが必要なベンチマークごとに評価用のプロンプトリストを提供しています
推論ONモードで推論が必要なかった場合、モデルは<think></think>を含みます。これは期待される動作です

このモデルはプレビューAPIで試すことができます：Llama-3_1-Nemotron-Ultra-253B-v1。

Transformersで使用する

Hugging Face Transformersライブラリでの使用例を以下に示します。推論モード（ON/OFF）はシステムプロンプトで制御されます。以下の例を参照してください

transformersパッケージのバージョン4.48.3を使用することを推奨します。
推論ONの例:

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"


print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

推論OFFの例:

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-ULtra-253B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

thinking = "off"


print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

vLLMで使用する

pip install vllm==0.8.3

vLLMでサービスを提供する例:

python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager

推論:

エンジン:

Transformers

テストハードウェア:

BF16:
- 8x NVIDIA H100-80GB
- 4x NVIDIA B100
FP 8
- 4x NVIDIA H100-80GB

トレーニングと評価データセット

トレーニングデータセット

知識蒸留フェーズの前の追加学習パイプラインには、多様なトレーニングデータが使用され、そのうち3つはFineWeb、Buzz-V1.2、Dolmaを含みます。

多段階の追加学習フェーズのデータは、元のLlama指示モデルの数学、コード、一般的な推論、指示追従能力の改善をサポートするSFTとRLデータのコンパイルです。

プロンプトは公開およびオープンコーパスから収集されるか、合成的に生成されました。応答はさまざまなモデルによって合成的に生成され、一部のプロンプトには推論ONとOFFモードの両方の応答が含まれ、モデルが2つのモードを区別するようにトレーニングされました。このモデルはQwenで改善されました。

モデル開発と改善の透明性と開放性を促進するため、Llama-Nemotron-Post-Training-Datasetを公開しました。

トレーニングデータセットのデータ収集:

ハイブリッド：自動化、人間、合成

トレーニングデータセットのデータラベリング:

ハイブリッド：自動化、人間、合成

評価データセット

Llama-3.1-Nemotron-Ultra-253B-v1の評価には、次のセクションにリストされているデータセットを使用しました。

評価データセットのデータ収集:

ハイブリッド：人間/合成

評価データセットのデータラベリング:

ハイブリッド：人間/合成/自動

評価結果

これらの結果には推論ONと推論OFFの両方が含まれます。推論ONモードでは温度=0.6、top_p=0.95を、推論OFFモードでは貪欲デコードを使用することを推奨します。すべての評価は32kシーケンス長で行われます。ベンチマークは最大16回実行され、スコアを平均化してより正確にしています。

注：該当する場合、プロンプトテンプレートが提供されます。ベンチマークを完了する際は、以下のプロンプトに従って正しい出力形式を解析し、以下のベンチマークを再現できるようにしてください。

GPQA

推論モード	pass@1
推論OFF	56.60
推論ON	76.01

ユーザープロンプトテンプレート:

"この質問に対する正しい答えは何ですか：{question}\n選択肢：\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\n段階的に考え、最終的な答え（単一の文字A、B、C、またはDである必要があります）を\boxed{}に入れてください"

AIME25

推論モード	pass@1
推論OFF	16.67
推論ON	72.50

ユーザープロンプトテンプレート:

"以下は数学の問題です。段階的に推論し、最終的な答えを出してください。最終的な答えは\boxed{}に入れてください。\n問題：{question}"

BFCL V2 Live

推論モード	スコア
推論OFF	73.62
推論ON	74.10

ユーザープロンプトテンプレート:

あなたは関数の構成に関する専門家です。質問と可能な関数のセットが与えられます。
質問に基づいて、目的を達成するために1つ以上の関数/ツール呼び出しを行う必要があります。
どの関数も使用できない場合は指摘してください。与えられた質問に関数に必要なパラメータが不足している場合も指摘してください。応答にはツール呼び出しセクションに関数呼び出しのみを返す必要があります。

いずれかの関数を呼び出すことを決定した場合、<TOOLCALL>[func_name1(params_name1=params_value1, params_name2=params_value2...), func_name2(params)]</TOOLCALL>の形式で記述する必要があります。

応答には他のテキストを含めてはいけません。
以下は呼び出し可能な関数のJSON形式のリストです。

<AVAILABLE_TOOLS>{functions}</AVAILABLE_TOOLS>

{user_prompt}

LiveCodeBench (20240801-20250201)

推論モード	pass@1
推論OFF	29.03
推論ON	66.31

ユーザープロンプトテンプレート（スターターコードなし）:

"問題仕様（質問）が与えられ、仕様に一致しすべてのテストに合格する正しいPythonプログラムを生成します。

問題：{prompt}

入力はstdinから読み取り、問題を解決し、答えをstdoutに書き出してください（サンプル入力で直接テストしないでください）。以下のデリミタ内にコードを記述してください。Pythonプログラムが実行されると、入力を読み取り、アルゴリズムを実行し、出力をSTDOUTに書き出すことを確認してください。
```python
# ここにコードを記述
```

ユーザープロンプトテンプレート（スターターコードあり）:

問題仕様（質問）が与えられ、仕様に一致しすべてのテストに合格する正しいPythonプログラムを生成します。

問題：{prompt}

以下のスターターコードを使用して問題の解決策を記述し、コードをデリミタ内に記述してください。
```python
{starter_code}
```

IFEval

推論モード	Strict:Instruction
推論OFF	88.85
推論ON	89.45

MATH500

推論モード	pass@1
推論OFF	80.40
推論ON	97.00

ユーザープロンプトテンプレート:

"以下は数学の問題です。段階的に推論し、最終的な答えを出してください。最終的な答えは\boxed{}に入れてください。\n問題：{question}"

JudgeBench

推論モード	知識スコア	推論スコア	数学スコア	コーディングスコア	総合スコア
推論ON	70.13	81.63	89.29	92.86	79.14

倫理的考慮事項:

NVIDIAは、信頼できるAIは共有された責任であると信じており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連業界と使用事例の要件を満たし、予期せぬ製品の誤用に対処することを確認する必要があります。

このモデルの倫理的考慮事項の詳細については、Model Card++ 説明可能性、バイアス、安全性とセキュリティ、およびプライバシーのサブカードをご覧ください。

セキュリティの脆弱性やNVIDIA AIに関する懸念はこちらから報告してください。

引用

@misc{bercovich2025llamanemotronefficientreasoningmodels,
      title={Llama-Nemotron: Efficient Reasoning Models}, 
      author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
      year={2025},
      eprint={2505.00949},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.00949}, 
}