🚀 Llama-3.1-Nemotron-Ultra-253B-CPT-v1
Llama-3.1-Nemotron-Ultra-253B-CPT-v1は、大規模言語モデル(LLM)であり、Meta Llama-3.1-405B-Instruct を派生元としています。このモデルは128Kトークンのコンテキスト長をサポートし、推論には単一の8xH100ノードで十分です。Llama-3.1-405B-Instructから派生したものの、大幅な継続事前学習(CPT)を行っており、このCPTバリアントはLlama-3.1-405B-Instructの「再ベース」された派生モデルと見なすことができます。
このモデルは、モデルの精度と効率のバランスに優れています。効率(スループット)の向上は直接的にコスト削減につながります。新しいニューラルアーキテクチャサーチ(NAS)アプローチを用いることで、モデルのメモリ使用量を大幅に削減し、より大きなワークロードを可能にするとともに、データセンター環境でモデルを実行するために必要なGPUの数を減らすことができます。このNASアプローチにより、精度と効率のトレードオフの中で望ましいポイントを選択することができます。さらに、モデルを垂直方向に圧縮する新しい方法(詳細はこちらを参照)を用いることで、レイテンシーも大幅に改善されています。
🚀 クイックスタート
このモデルは、商用利用が可能です。以下に、Hugging Face Transformers ライブラリを使用した使用例を示します。
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
print(pipeline("Hey how are you?"))
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))
推論
エンジン:
テストハードウェア:
- BF16:
- 8x NVIDIA H100-80GB
- 4x NVIDIA B100
- FP 8
✨ 主な機能
- Llama-3.1-Nemotron-Ultra-253B-CPT-v1は、大規模言語モデル(LLM)であり、128Kトークンのコンテキスト長をサポートします。
- 新しいニューラルアーキテクチャサーチ(NAS)アプローチを用いることで、モデルのメモリ使用量を大幅に削減し、より大きなワークロードを可能にするとともに、データセンター環境でモデルを実行するために必要なGPUの数を減らすことができます。
- モデルを垂直方向に圧縮する新しい方法を用いることで、レイテンシーも大幅に改善されています。
📦 インストール
推奨する transformers パッケージのバージョンは4.48.3です。
💻 使用例
基本的な使用法
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
print(pipeline("Hey how are you?"))
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))
📚 ドキュメント
モデル概要

Llama-3.1-Nemotron-Ultra-253B-CPT-v1は、大規模言語モデル(LLM)であり、Meta Llama-3.1-405B-Instruct を派生元としています。このモデルは128Kトークンのコンテキスト長をサポートし、推論には単一の8xH100ノードで十分です。Llama-3.1-405B-Instructから派生したものの、大幅な継続事前学習(CPT)を行っており、このCPTバリアントはLlama-3.1-405B-Instructの「再ベース」された派生モデルと見なすことができます。
Llama-3.1-Nemotron-Ultra-253B-v1は、モデルの精度と効率のバランスに優れています。効率(スループット)の向上は直接的にコスト削減につながります。新しいニューラルアーキテクチャサーチ(NAS)アプローチを用いることで、モデルのメモリ使用量を大幅に削減し、より大きなワークロードを可能にするとともに、データセンター環境でモデルを実行するために必要なGPUの数を減らすことができます。このNASアプローチにより、精度と効率のトレードオフの中で望ましいポイントを選択することができます。さらに、モデルを垂直方向に圧縮する新しい方法(詳細はこちらを参照)を用いることで、レイテンシーも大幅に改善されています。
このモデルは、Llama Nemotron Collectionの一部であるLlama-3.1-Nemotron-Ultra-253B-v1を作成するためのベースモデルとして使用されました。このファミリーの他のモデルは以下のリンクから見つけることができます。
ライセンス/利用規約
このモデルの使用は、NVIDIA Open Model Licenseに準拠しています。追加情報は、Llama 3.1 Community License Agreementを参照してください。このモデルはLlamaを使用して構築されています。
モデル開発者: NVIDIA
モデル日付: 2024年11月から2025年4月の間にトレーニングされました。
データの新鮮さ: Llama-3.1-405B-Instructに従い、事前学習データのカットオフは2023年です。
使用例
このモデルは、任意のドメインやアプリケーションにファインチューニングすることで、任意のアプリケーションのベースモデルとして使用することができます。
リリース日
2025-04-08
参考文献
モデルアーキテクチャ
アーキテクチャタイプ: 密なデコーダーのみのTransformerモデル
ネットワークアーキテクチャ: Llama-3.1-405B-Instruct、ニューラルアーキテクチャサーチ(NAS)によってカスタマイズされています。
このモデルは、Llama 3.1-405B-Instructをベースに開発されており、253Bのモデルパラメータを持っています。
このモデルは、ニューラルアーキテクチャサーチ(NAS)を用いてLlama 3.1-405B-Instructから派生したものです。NASアルゴリズムの結果、非標準かつ非反復的なブロックが生成されます。これには以下のものが含まれます。
- スキップアテンション: 一部のブロックでは、アテンションが完全にスキップされるか、単一の線形層に置き換えられます。
- 可変FFN: FFN層の拡張/圧縮比は、ブロック間で異なります。
- FFN Fusion: いくつかの連続するアテンション層がスキップされると、複数のFFNのシーケンスが生成されることがあります。このFFNのシーケンスは、より少ない数の幅広いFFN層に融合されます。
親モデルの各ブロックについて、品質と計算複雑性の異なるトレードオフプロファイルを提供する複数のバリアントを作成しました(詳細はこちらを参照)。その後、ブロックを検索して、必要なスループットとメモリ制約を満たしながら、品質の低下を最小限に抑えるモデルを作成します。パフォーマンスを回復するために、モデルは最初に650億トークンの知識蒸留(KD)を行い、その後880億トークンの継続事前学習(CPT)フェーズを行います。初期モデルはLlama 3.1-405B-Instructの命令付きバージョンから注入されましたが、大幅なCPTを行った結果、モデルを「再ベース」することができます。ただし、再ベースされたCPTの最終モデルは、その命令追従能力の一部を保持しているはずです。
想定使用法
Llama-3.1-Nemotron-Ultra-253B-CPT-v1は、主に英語とコーディング言語で使用することを想定したベースモデルとして使用できます。
入力
- 入力タイプ: テキスト
- 入力形式: 文字列
- 入力パラメータ: 一次元(1D)
- 入力に関連するその他のプロパティ: 最大131,072トークンのコンテキスト長
出力
- 出力タイプ: テキスト
- 出力形式: 文字列
- 出力パラメータ: 一次元(1D)
- 出力に関連するその他のプロパティ: 最大131,072トークンのコンテキスト長
ソフトウェア統合
- ランタイムエンジン: Transformers
- 推奨ハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Hopper
- NVIDIA Ampere
- 推奨オペレーティングシステム: Linux
モデルバージョン
1.0 (4/8/2025)
クイックスタートと使用推奨事項
近日公開予定です。このCPTモデルをベースに構築された推論モデルは、このリンクを使用してプレビューAPIで試すことができます。Llama-3_1-Nemotron-Ultra-253B-v1
評価結果
ベンチマーク |
メトリック |
スコア |
GSM-8K |
strict-match |
84.99 |
MMLU |
macro |
88.09 |
MATH500 |
micro |
80.4 |
HumanEval |
pass@1 |
88.41 |
RULER |
128K |
83.21 |
倫理的考慮事項
NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界や使用例の要件を満たし、予期せぬ製品の誤用に対応することを確認する必要があります。
このモデルの倫理的考慮事項の詳細については、Model Card++のExplainability、Bias、Safety & Security、およびPrivacyのサブカードを参照してください。
セキュリティバグやNVIDIA AIに関する懸念事項は、こちらから報告してください。
🔧 技術詳細
このモデルは、ニューラルアーキテクチャサーチ(NAS)を用いてLlama 3.1-405B-Instructから派生したものです。NASアルゴリズムの結果、非標準かつ非反復的なブロックが生成されます。これには以下のものが含まれます。
- スキップアテンション: 一部のブロックでは、アテンションが完全にスキップされるか、単一の線形層に置き換えられます。
- 可変FFN: FFN層の拡張/圧縮比は、ブロック間で異なります。
- FFN Fusion: いくつかの連続するアテンション層がスキップされると、複数のFFNのシーケンスが生成されることがあります。このFFNのシーケンスは、より少ない数の幅広いFFN層に融合されます。
親モデルの各ブロックについて、品質と計算複雑性の異なるトレードオフプロファイルを提供する複数のバリアントを作成しました(詳細はこちらを参照)。その後、ブロックを検索して、必要なスループットとメモリ制約を満たしながら、品質の低下を最小限に抑えるモデルを作成します。パフォーマンスを回復するために、モデルは最初に650億トークンの知識蒸留(KD)を行い、その後880億トークンの継続事前学習(CPT)フェーズを行います。初期モデルはLlama 3.1-405B-Instructの命令付きバージョンから注入されましたが、大幅なCPTを行った結果、モデルを「再ベース」することができます。ただし、再ベースされたCPTの最終モデルは、その命令追従能力の一部を保持しているはずです。
📄 ライセンス
このモデルの使用は、NVIDIA Open Model Licenseに準拠しています。追加情報は、Llama 3.1 Community License Agreementを参照してください。