🚀 Llama-3.1-Nemotron-Ultra-253B-CPT-v1
Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一个大型语言模型,在准确性和效率之间取得了良好平衡,支持128K上下文长度,适用于商业应用。
🚀 快速开始
(即将推出) 你可以使用以下链接,在预览API中尝试基于此CPT模型构建的推理模型:Llama-3_1-Nemotron-Ultra-253B-v1。
以下是使用 Hugging Face Transformers 库的代码片段:
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
print(pipeline("Hey how are you?"))
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))
✨ 主要特性
- 高效与准确的平衡:Llama-3.1-Nemotron-Ultra-253B-CPT-v1在模型准确性和效率之间实现了出色的平衡。通过新颖的神经架构搜索(NAS)方法,大幅减少了模型的内存占用,能够处理更大的工作负载,同时降低了在数据中心环境中运行模型所需的GPU数量。此外,还采用了一种新颖的垂直压缩模型的方法,显著改善了延迟。
- 长上下文支持:该模型支持128K的上下文长度,能够处理更长的文本输入和输出。
- 商业可用:此模型可用于商业用途。
📚 详细文档
模型概述

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一个大型语言模型(LLM),它是 Meta Llama-3.1-405B-Instruct(即父模型)的衍生模型。该模型支持128K的上下文长度,并且可以在单个8xH100节点上进行推理。虽然该模型源自Llama-3.1-405B-Instruct,但它经过了大量的持续预训练(CPT)。这个CPT变体可以被视为Llama-3.1-405B-Instruct的“重新基础化”衍生模型。
Llama-3.1-Nemotron-Ultra-253B-v1是一个在模型准确性和效率之间提供了良好权衡的模型。效率(吞吐量)直接转化为成本节约。通过使用新颖的神经架构搜索(NAS)方法,我们大大减少了模型的内存占用,从而能够处理更大的工作负载,同时减少了在数据中心环境中运行模型所需的GPU数量。这种NAS方法能够在准确性和效率之间选择一个理想的平衡点。此外,通过使用一种新颖的垂直压缩模型的方法(详见 此处),它还显著改善了延迟。
这个模型是创建Llama-3.1-Nemotron-Ultra-253B-v1的基础模型,它是Llama Nemotron系列的一部分。你可以在以下链接找到该系列的其他模型:
许可证/使用条款
适用条款:你对该模型的使用受 NVIDIA开放模型许可证 约束。附加信息:Llama 3.1社区许可协议。基于Llama构建。
模型开发者:NVIDIA
模型日期:于2024年11月至2025年4月期间训练
数据新鲜度:根据Llama-3.1-405B-Instruct,预训练数据的截止日期为2023年
使用场景
该模型可以作为基础模型,通过微调应用于任何所需的领域或应用程序。
发布日期
2025年4月8日
参考文献
模型架构
架构类型:密集解码器Transformer模型
网络架构:Llama-3.1-405B-Instruct,通过神经架构搜索(NAS)进行定制
该模型基于Llama-3.1-405B-Instruct开发,使用了神经架构搜索(NAS)。NAS算法产生了非标准和非重复的块,包括以下内容:
- 跳过注意力:在某些块中,注意力机制被完全跳过,或者被单个线性层所取代。
- 可变FFN:FFN层中的扩展/压缩比在不同块之间有所不同。
- FFN融合:当连续几个注意力层被跳过时,可能会产生多个FFN序列,这些FFN序列会被融合成更少但更宽的FFN层。
对于父模型的每个块,我们创建了多个变体,提供了不同的质量与计算复杂度的权衡方案,详情可参考 此处。然后,我们在这些块中进行搜索,以创建一个满足所需吞吐量和内存约束的模型,同时尽量减少质量下降。为了恢复性能,该模型最初进行了650亿个标记的知识蒸馏(KD),随后进行了880亿个标记的持续预训练(CPT)阶段。虽然初始模型源自Llama 3.1-405B-Instruct的指令版本,但经过大量的CPT后,可以将其视为“重新基础化”的模型。不过,重新基础化的CPT最终模型仍应保留一些指令跟随能力。
预期用途
Llama-3.1-Nemotron-Ultra-253B-CPT-v1主要用于英语和编码语言相关的任务。
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维(1D)
- 其他输入相关属性:上下文长度最大为131,072个标记
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)
- 其他输出相关属性:上下文长度最大为131,072个标记
软件集成
- 运行时引擎:Transformers
- 推荐的硬件微架构兼容性:
- NVIDIA Hopper
- NVIDIA Ampere
- 首选操作系统:Linux
模型版本
1.0(2025年4月8日)
推理
引擎:
测试硬件:
- BF16:
- 8x NVIDIA H100-80GB
- 4x NVIDIA B100
- FP 8
训练数据集
在预训练管道之前的知识蒸馏阶段,使用了多种训练数据,其中包括:FineWeb、Buzz-V1.2和Dolma。
训练数据集的数据收集
训练数据集的数据标注
评估数据集
我们使用以下部分列出的数据集对Llama-3.1-Nemotron-Ultra-253B-CPT-v1进行评估。
评估数据集的数据收集
评估数据集的数据标注
评估结果
基准测试 |
指标 |
得分 |
GSM-8K |
严格匹配 |
84.99 |
MMLU |
宏平均 |
88.09 |
MATH500 |
微平均 |
80.4 |
HumanEval |
pass@1 |
88.41 |
RULER |
128K |
83.21 |
伦理考量
NVIDIA认为可信AI是一项共同的责任,我们已经制定了相关政策和实践,以支持广泛的AI应用开发。当开发者按照我们的服务条款下载或使用该模型时,应与内部模型团队合作,确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。
有关该模型伦理考量的更多详细信息,请参阅模型卡片++ 可解释性、偏差、安全与保障 和 隐私 子卡片。
请在此 链接 报告安全漏洞或NVIDIA AI相关问题。
🔧 技术细节
模型架构
该模型基于Llama-3.1-405B-Instruct开发,使用了神经架构搜索(NAS)。NAS算法产生了非标准和非重复的块,包括跳过注意力、可变FFN和FFN融合等。对于父模型的每个块,创建了多个变体,提供不同的质量与计算复杂度的权衡方案。为了恢复性能,模型先进行了650亿个标记的知识蒸馏(KD),随后进行了880亿个标记的持续预训练(CPT)阶段。
评估指标
使用了多个基准测试对模型进行评估,包括GSM-8K、MMLU、MATH500、HumanEval和RULER等,涵盖了严格匹配、宏平均、微平均、pass@1等指标。
📄 许可证
本模型的使用受 NVIDIA开放模型许可证 约束。附加信息请参考 Llama 3.1社区许可协议。