Llama-3.1-Nemotron-8B-UltraLong-1M-Instruct开源大模型 - 免费处理超长文本表现卓越

首页

Llama 3.1 Nemotron 8B UltraLong 1M Instruct

由 nvidia 开发

专为处理超长文本序列（最高支持100万、200万和400万标记）设计的大语言模型，在标准基准测试中保持卓越性能。

大型语言模型

Transformers

英语#超长上下文理解 #百万级标记处理 #多领域指令微调

下载量 4,025

发布时间 : 3/4/2025

模型简介

基于Llama-3.1架构的超长上下文语言模型，通过高效持续预训练与指令微调显著提升长上下文理解与指令遵循能力。

模型特点

超长上下文支持

支持最高400万标记的超长文本序列处理能力

高效训练方案

结合高效持续预训练与指令微调，显著提升长上下文理解能力

性能保持

在扩展上下文窗口的同时不损失通用性能

多样化评估

在长上下文任务和标准基准测试中均表现卓越

模型能力

超长文本序列处理

指令遵循

通用文本生成

数学推理

代码生成

使用案例

长文档处理

法律文档分析

处理和分析超长法律合同和文档

能够准确理解和提取长文档中的关键信息

科研论文摘要

对长篇科研论文进行总结和关键信息提取

保持对全文内容的连贯理解

对话系统

长对话记忆

支持超长对话历史的记忆和上下文理解

在长对话中保持一致的响应

🚀 Nemotron-UltraLong-8B模型

Nemotron-UltraLong-8B 是一系列超长上下文语言模型，旨在处理大量文本序列（最多可达100万、200万和400万个标记），同时在标准基准测试中保持有竞争力的性能。该模型基于Llama-3.1构建，采用了系统的训练方法，将高效的持续预训练与指令微调相结合，以增强长上下文理解和指令遵循能力。这种方法使模型能够在不牺牲整体性能的情况下有效扩展其上下文窗口。

🚀 快速开始

从 transformers >= 4.43.0 版本开始，你可以使用Transformers的 pipeline 抽象或借助 generate() 函数的Auto类来进行对话推理。

请确保通过 pip install --upgrade transformers 更新你的transformers库。

import transformers
import torch

model_id = "nvidia/Llama-3.1-Nemotron-8B-UltraLong-1M-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

✨ 主要特性

能够处理超长文本序列，上下文窗口最大可达400万个标记。
基于Llama-3.1构建，结合持续预训练和指令微调，提升长上下文理解和指令遵循能力。
在长上下文任务和标准任务的基准测试中均表现出色。

📦 安装指南

确保你的 transformers 库版本为 4.43.0 或更高。可以使用以下命令进行更新：

pip install --upgrade transformers

💻 使用示例

基础用法

import transformers
import torch

model_id = "nvidia/Llama-3.1-Nemotron-8B-UltraLong-1M-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

📚 详细文档

模型卡片

属性	详情
基础模型	meta-llama/Llama-3.1-8B-Instruct
持续预训练	训练数据由10亿个标记组成，这些标记来自预训练语料库，采用基于样本长度的按域上采样方法。模型在序列长度为100万、全局批次大小为8的情况下训练了125次迭代。
监督微调（SFT）	在通用、数学和代码领域的开源指令数据集上使用10亿个标记进行微调。我们从 AceMath-Instruct 的 ‘general_sft_stage2’ 中对数据进行子采样。
最大上下文窗口	100万个标记

评估结果

我们在一系列多样化的基准测试中对Nemotron-UltraLong-8B进行了评估，包括长上下文任务（如RULER、LV-Eval和InfiniteBench）和标准任务（如MMLU、MATH、GSM-8K和HumanEval）。UltraLong-8B在超长上下文任务中表现出色，同时在标准基准测试中也保持了有竞争力的结果。

大海捞针任务

大海捞针任务结果

长上下文评估

长上下文评估结果

标准能力评估

标准能力评估结果

🔧 技术细节

持续预训练：训练数据来自预训练语料库，使用按域上采样方法，根据样本长度进行调整。模型在序列长度为100万、全局批次大小为8的情况下训练了125次迭代。
监督微调（SFT）：在通用、数学和代码领域的开源指令数据集上使用10亿个标记进行微调。从 AceMath-Instruct 的 ‘general_sft_stage2’ 中对数据进行子采样。

📄 许可证

本模型采用CC BY-NC 4.0许可证。

🔗 联系方式

Chejian Xu (chejian2@illinois.edu)
Wei Ping (wping@nvidia.com)

📖 引用

@article{ulralong2025,
  title={From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models},
  author={Xu, Chejian and Ping, Wei and Xu, Peng and Liu, Zihan and Wang, Boxin and Shoeybi, Mohammad and Catanzaro, Bryan},
  journal={arXiv preprint},
  year={2025}
 }