Llama-3_1-Nemotron-Ultra-253B-CPT-v1开源大模型 - 长上下文、准确高效文本交互

Llama 3 1 Nemotron Ultra 253B CPT V1

由 nvidia 开发

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是基于Meta Llama-3.1-405B-Instruct的大型语言模型，支持128K tokens上下文长度，经过神经架构搜索优化，在准确性和效率之间取得良好平衡。

大型语言模型

Transformers

英语开源协议:其他 #128K长文本推理 #神经架构搜索优化 #持续预训练增强

下载量 155

发布时间 : 4/8/2025

模型简介

该模型是Llama-3.1-405B-Instruct的衍生版本，通过神经架构搜索和持续预训练优化，适用于英语和编程语言的文本生成任务。

模型特点

高效推理

通过神经架构搜索优化内存占用，可在单个8xH100节点上进行推理，降低运行成本。

长上下文支持

支持128K tokens的上下文长度，适合处理长文档和复杂任务。

垂直压缩优化

采用新颖的垂直压缩方法，显著改善模型延迟。

持续预训练

经过650亿tokens的知识蒸馏和880亿tokens的持续预训练，提升模型性能。

模型能力

文本生成

长文本处理

编程语言理解

使用案例

基础模型

领域适应

作为基础模型，可通过微调适应特定领域或应用场景。

研究与应用

语言理解与生成

用于自然语言处理任务，如问答、摘要和对话系统。

代码生成与理解

支持编程语言相关任务，如代码补全和解释。

🚀 Llama-3.1-Nemotron-Ultra-253B-CPT-v1

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一个大型语言模型，在准确性和效率之间取得了良好平衡，支持128K上下文长度，适用于商业应用。

🚀 快速开始

(即将推出) 你可以使用以下链接，在预览API中尝试基于此CPT模型构建的推理模型：Llama-3_1-Nemotron-Ultra-253B-v1。

以下是使用 Hugging Face Transformers 库的代码片段：

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

print(pipeline("Hey how are you?")) # 基础模型使用方法
print(pipeline([{"role": "user", "content": "Hey how are you?"}])) # 聊天模型使用方法

✨ 主要特性

高效与准确的平衡：Llama-3.1-Nemotron-Ultra-253B-CPT-v1在模型准确性和效率之间实现了出色的平衡。通过新颖的神经架构搜索（NAS）方法，大幅减少了模型的内存占用，能够处理更大的工作负载，同时降低了在数据中心环境中运行模型所需的GPU数量。此外，还采用了一种新颖的垂直压缩模型的方法，显著改善了延迟。
长上下文支持：该模型支持128K的上下文长度，能够处理更长的文本输入和输出。
商业可用：此模型可用于商业用途。

📚 详细文档

模型概述

Accuracy Plot

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一个大型语言模型（LLM），它是 Meta Llama-3.1-405B-Instruct（即父模型）的衍生模型。该模型支持128K的上下文长度，并且可以在单个8xH100节点上进行推理。虽然该模型源自Llama-3.1-405B-Instruct，但它经过了大量的持续预训练（CPT）。这个CPT变体可以被视为Llama-3.1-405B-Instruct的“重新基础化”衍生模型。

Llama-3.1-Nemotron-Ultra-253B-v1是一个在模型准确性和效率之间提供了良好权衡的模型。效率（吞吐量）直接转化为成本节约。通过使用新颖的神经架构搜索（NAS）方法，我们大大减少了模型的内存占用，从而能够处理更大的工作负载，同时减少了在数据中心环境中运行模型所需的GPU数量。这种NAS方法能够在准确性和效率之间选择一个理想的平衡点。此外，通过使用一种新颖的垂直压缩模型的方法（详见此处），它还显著改善了延迟。

这个模型是创建Llama-3.1-Nemotron-Ultra-253B-v1的基础模型，它是Llama Nemotron系列的一部分。你可以在以下链接找到该系列的其他模型：

许可证/使用条款

适用条款：你对该模型的使用受 NVIDIA开放模型许可证约束。附加信息：Llama 3.1社区许可协议。基于Llama构建。

模型开发者：NVIDIA

模型日期：于2024年11月至2025年4月期间训练

数据新鲜度：根据Llama-3.1-405B-Instruct，预训练数据的截止日期为2023年

使用场景

该模型可以作为基础模型，通过微调应用于任何所需的领域或应用程序。

发布日期

2025年4月8日

参考文献

模型架构

架构类型：密集解码器Transformer模型 网络架构：Llama-3.1-405B-Instruct，通过神经架构搜索（NAS）进行定制

该模型基于Llama-3.1-405B-Instruct开发，使用了神经架构搜索（NAS）。NAS算法产生了非标准和非重复的块，包括以下内容：

跳过注意力：在某些块中，注意力机制被完全跳过，或者被单个线性层所取代。
可变FFN：FFN层中的扩展/压缩比在不同块之间有所不同。
FFN融合：当连续几个注意力层被跳过时，可能会产生多个FFN序列，这些FFN序列会被融合成更少但更宽的FFN层。

对于父模型的每个块，我们创建了多个变体，提供了不同的质量与计算复杂度的权衡方案，详情可参考此处。然后，我们在这些块中进行搜索，以创建一个满足所需吞吐量和内存约束的模型，同时尽量减少质量下降。为了恢复性能，该模型最初进行了650亿个标记的知识蒸馏（KD），随后进行了880亿个标记的持续预训练（CPT）阶段。虽然初始模型源自Llama 3.1-405B-Instruct的指令版本，但经过大量的CPT后，可以将其视为“重新基础化”的模型。不过，重新基础化的CPT最终模型仍应保留一些指令跟随能力。

预期用途

Llama-3.1-Nemotron-Ultra-253B-CPT-v1主要用于英语和编码语言相关的任务。

输入

输入类型：文本
输入格式：字符串
输入参数：一维（1D）
其他输入相关属性：上下文长度最大为131,072个标记

输出

输出类型：文本
输出格式：字符串
输出参数：一维（1D）
其他输出相关属性：上下文长度最大为131,072个标记

软件集成

运行时引擎：Transformers
推荐的硬件微架构兼容性：
- NVIDIA Hopper
- NVIDIA Ampere
首选操作系统：Linux

模型版本

1.0（2025年4月8日）

推理

引擎：

Transformers

测试硬件：

BF16：
- 8x NVIDIA H100-80GB
- 4x NVIDIA B100
FP 8
- 4x NVIDIA H100-80GB

训练数据集

在预训练管道之前的知识蒸馏阶段，使用了多种训练数据，其中包括：FineWeb、Buzz-V1.2和Dolma。

训练数据集的数据收集

混合方式：自动、人工、合成

训练数据集的数据标注

混合方式：自动、人工、合成

评估数据集

我们使用以下部分列出的数据集对Llama-3.1-Nemotron-Ultra-253B-CPT-v1进行评估。

评估数据集的数据收集

混合方式：人工/合成

评估数据集的数据标注

混合方式：人工/合成/自动

评估结果

基准测试	指标	得分
GSM-8K	严格匹配	84.99
MMLU	宏平均	88.09
MATH500	微平均	80.4
HumanEval	pass@1	88.41
RULER	128K	83.21

伦理考量

NVIDIA认为可信AI是一项共同的责任，我们已经制定了相关政策和实践，以支持广泛的AI应用开发。当开发者按照我们的服务条款下载或使用该模型时，应与内部模型团队合作，确保该模型符合相关行业和用例的要求，并解决不可预见的产品滥用问题。

有关该模型伦理考量的更多详细信息，请参阅模型卡片++ 可解释性、偏差、安全与保障和隐私子卡片。

请在此链接报告安全漏洞或NVIDIA AI相关问题。

🔧 技术细节

模型架构

该模型基于Llama-3.1-405B-Instruct开发，使用了神经架构搜索（NAS）。NAS算法产生了非标准和非重复的块，包括跳过注意力、可变FFN和FFN融合等。对于父模型的每个块，创建了多个变体，提供不同的质量与计算复杂度的权衡方案。为了恢复性能，模型先进行了650亿个标记的知识蒸馏（KD），随后进行了880亿个标记的持续预训练（CPT）阶段。