Llama-3_1-Nemotron-Ultra-253B-CPT-v1オープンソース大規模言語モデル - 長文脈、正確かつ効率的なテキスト対話

Llama 3 1 Nemotron Ultra 253B CPT V1

nvidiaによって開発

Llama-3.1-Nemotron-Ultra-253B-CPT-v1はMeta Llama-3.1-405B-Instructを基盤とした大規模言語モデルで、128Kトークンのコンテキスト長をサポートし、ニューラルアーキテクチャサーチによる最適化により、精度と効率性の良好なバランスを実現しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #128K長文推論 #ニューラルアーキテクチャサーチ最適化 #継続事前学習強化

ダウンロード数 155

リリース時間 : 4/8/2025

モデル概要

このモデルはLlama-3.1-405B-Instructの派生バージョンで、ニューラルアーキテクチャサーチと継続事前学習による最適化が施されており、英語とプログラミング言語のテキスト生成タスクに適しています。

モデル特徴

効率的推論

ニューラルアーキテクチャサーチによりメモリ使用量を最適化し、単一の8xH100ノードで推論可能で、運用コストを削減します。

長文コンテキストサポート

128Kトークンのコンテキスト長をサポートし、長文ドキュメントや複雑なタスクの処理に適しています。

垂直圧縮最適化

新しい垂直圧縮手法を採用し、モデルのレイテンシを大幅に改善します。

継続事前学習

650億トークンの知識蒸留と880億トークンの継続事前学習を経て、モデル性能を向上させています。

モデル能力

テキスト生成

長文処理

プログラミング言語理解

使用事例

基盤モデル

ドメイン適応

基盤モデルとして、特定のドメインやアプリケーションシナリオに微調整して適応可能です。

研究と応用

言語理解と生成

質問応答、要約、対話システムなどの自然言語処理タスクに使用されます。

コード生成と理解

コード補完や説明などのプログラミング言語関連タスクをサポートします。

🚀 Llama-3.1-Nemotron-Ultra-253B-CPT-v1

Llama-3.1-Nemotron-Ultra-253B-CPT-v1は、大規模言語モデル（LLM）であり、Meta Llama-3.1-405B-Instruct を派生元としています。このモデルは128Kトークンのコンテキスト長をサポートし、推論には単一の8xH100ノードで十分です。Llama-3.1-405B-Instructから派生したものの、大幅な継続事前学習（CPT）を行っており、このCPTバリアントはLlama-3.1-405B-Instructの「再ベース」された派生モデルと見なすことができます。

このモデルは、モデルの精度と効率のバランスに優れています。効率（スループット）の向上は直接的にコスト削減につながります。新しいニューラルアーキテクチャサーチ（NAS）アプローチを用いることで、モデルのメモリ使用量を大幅に削減し、より大きなワークロードを可能にするとともに、データセンター環境でモデルを実行するために必要なGPUの数を減らすことができます。このNASアプローチにより、精度と効率のトレードオフの中で望ましいポイントを選択することができます。さらに、モデルを垂直方向に圧縮する新しい方法（詳細はこちらを参照）を用いることで、レイテンシーも大幅に改善されています。

🚀 クイックスタート

このモデルは、商用利用が可能です。以下に、Hugging Face Transformers ライブラリを使用した使用例を示します。

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

print(pipeline("Hey how are you?")) # Base model usage
print(pipeline([{"role": "user", "content": "Hey how are you?"}])) # Chat model usage

推論

エンジン:

Transformers

テストハードウェア:

BF16:
- 8x NVIDIA H100-80GB
- 4x NVIDIA B100
FP 8
- 4x NVIDIA H100-80GB

✨ 主な機能

Llama-3.1-Nemotron-Ultra-253B-CPT-v1は、大規模言語モデル（LLM）であり、128Kトークンのコンテキスト長をサポートします。
新しいニューラルアーキテクチャサーチ（NAS）アプローチを用いることで、モデルのメモリ使用量を大幅に削減し、より大きなワークロードを可能にするとともに、データセンター環境でモデルを実行するために必要なGPUの数を減らすことができます。
モデルを垂直方向に圧縮する新しい方法を用いることで、レイテンシーも大幅に改善されています。

📦 インストール

推奨する transformers パッケージのバージョンは4.48.3です。

💻 使用例

基本的な使用法

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

print(pipeline("Hey how are you?")) # Base model usage
print(pipeline([{"role": "user", "content": "Hey how are you?"}])) # Chat model usage

📚 ドキュメント

モデル概要

Accuracy Plot

Llama-3.1-Nemotron-Ultra-253B-v1は、モデルの精度と効率のバランスに優れています。効率（スループット）の向上は直接的にコスト削減につながります。新しいニューラルアーキテクチャサーチ（NAS）アプローチを用いることで、モデルのメモリ使用量を大幅に削減し、より大きなワークロードを可能にするとともに、データセンター環境でモデルを実行するために必要なGPUの数を減らすことができます。このNASアプローチにより、精度と効率のトレードオフの中で望ましいポイントを選択することができます。さらに、モデルを垂直方向に圧縮する新しい方法（詳細はこちらを参照）を用いることで、レイテンシーも大幅に改善されています。

このモデルは、Llama Nemotron Collectionの一部であるLlama-3.1-Nemotron-Ultra-253B-v1を作成するためのベースモデルとして使用されました。このファミリーの他のモデルは以下のリンクから見つけることができます。

ライセンス/利用規約

このモデルの使用は、NVIDIA Open Model Licenseに準拠しています。追加情報は、Llama 3.1 Community License Agreementを参照してください。このモデルはLlamaを使用して構築されています。

モデル開発者: NVIDIA モデル日付: 2024年11月から2025年4月の間にトレーニングされました。 データの新鮮さ: Llama-3.1-405B-Instructに従い、事前学習データのカットオフは2023年です。

使用例

このモデルは、任意のドメインやアプリケーションにファインチューニングすることで、任意のアプリケーションのベースモデルとして使用することができます。

リリース日

2025-04-08

参考文献

モデルアーキテクチャ

アーキテクチャタイプ: 密なデコーダーのみのTransformerモデル ネットワークアーキテクチャ: Llama-3.1-405B-Instruct、ニューラルアーキテクチャサーチ（NAS）によってカスタマイズされています。

このモデルは、Llama 3.1-405B-Instructをベースに開発されており、253Bのモデルパラメータを持っています。

このモデルは、ニューラルアーキテクチャサーチ（NAS）を用いてLlama 3.1-405B-Instructから派生したものです。NASアルゴリズムの結果、非標準かつ非反復的なブロックが生成されます。これには以下のものが含まれます。

スキップアテンション: 一部のブロックでは、アテンションが完全にスキップされるか、単一の線形層に置き換えられます。
可変FFN: FFN層の拡張/圧縮比は、ブロック間で異なります。
FFN Fusion: いくつかの連続するアテンション層がスキップされると、複数のFFNのシーケンスが生成されることがあります。このFFNのシーケンスは、より少ない数の幅広いFFN層に融合されます。

親モデルの各ブロックについて、品質と計算複雑性の異なるトレードオフプロファイルを提供する複数のバリアントを作成しました（詳細はこちらを参照）。その後、ブロックを検索して、必要なスループットとメモリ制約を満たしながら、品質の低下を最小限に抑えるモデルを作成します。パフォーマンスを回復するために、モデルは最初に650億トークンの知識蒸留（KD）を行い、その後880億トークンの継続事前学習（CPT）フェーズを行います。初期モデルはLlama 3.1-405B-Instructの命令付きバージョンから注入されましたが、大幅なCPTを行った結果、モデルを「再ベース」することができます。ただし、再ベースされたCPTの最終モデルは、その命令追従能力の一部を保持しているはずです。

想定使用法

Llama-3.1-Nemotron-Ultra-253B-CPT-v1は、主に英語とコーディング言語で使用することを想定したベースモデルとして使用できます。

入力

入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: 一次元（1D）
入力に関連するその他のプロパティ: 最大131,072トークンのコンテキスト長

出力

出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: 一次元（1D）
出力に関連するその他のプロパティ: 最大131,072トークンのコンテキスト長

ソフトウェア統合

ランタイムエンジン: Transformers
推奨ハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Hopper
- NVIDIA Ampere
推奨オペレーティングシステム: Linux

モデルバージョン

1.0 (4/8/2025)

クイックスタートと使用推奨事項

近日公開予定です。このCPTモデルをベースに構築された推論モデルは、このリンクを使用してプレビューAPIで試すことができます。Llama-3_1-Nemotron-Ultra-253B-v1

評価結果

ベンチマーク	メトリック	スコア
GSM-8K	strict-match	84.99
MMLU	macro	88.09
MATH500	micro	80.4
HumanEval	pass@1	88.41
RULER	128K	83.21

倫理的考慮事項

NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界や使用例の要件を満たし、予期せぬ製品の誤用に対応することを確認する必要があります。

このモデルの倫理的考慮事項の詳細については、Model Card++のExplainability、Bias、Safety & Security、およびPrivacyのサブカードを参照してください。

セキュリティバグやNVIDIA AIに関する懸念事項は、こちらから報告してください。

🔧 技術詳細

スキップアテンション: 一部のブロックでは、アテンションが完全にスキップされるか、単一の線形層に置き換えられます。
可変FFN: FFN層の拡張/圧縮比は、ブロック間で異なります。
FFN Fusion: いくつかの連続するアテンション層がスキップされると、複数のFFNのシーケンスが生成されることがあります。このFFNのシーケンスは、より少ない数の幅広いFFN層に融合されます。