🚀 Nemotron-H-56B-Base-8K
NVIDIA Nemotron-H-56B-Base-8K是由NVIDIA开发的大型语言模型(LLM),旨在作为给定文本的补全模型。它采用了混合模型架构,主要由Mamba - 2和MLP层组成,仅结合了十个注意力层。该模型的上下文长度为8K,支持的语言包括英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。如需了解有关模型架构、训练和评估的更多详细信息,请参阅项目页面和技术报告。
✨ 主要特性
- 混合架构:采用结合Mamba - 2、MLP层和少量注意力层的混合模型架构。
- 多语言支持:支持英语、德语、西班牙语等多种语言。
- 长上下文处理:具备8K的上下文长度。
- 可定制性:可使用NeMo Framework套件中的工具进行定制,如参数高效微调(P - tuning、Adapters、LoRA等)和模型对齐(SFT、SteerLM、RLHF等)。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")
prompt = "When was NVIDIA founded?"
outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
文本生成 |
支持语言 |
英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文 |
模型架构 |
混合Mamba - Transformer,主要由Mamba - 2和MLP层组成,结合十个注意力层 |
上下文长度 |
8K |
模型参数 |
56B |
版本 |
v1.0 |
输入输出信息
类别 |
详情 |
输入类型 |
文本 |
输入格式 |
字符串 |
输入参数 |
一维序列 |
输入相关属性 |
上下文长度可达8K,支持多种语言 |
输出类型 |
文本 |
输出格式 |
字符串 |
输出参数 |
一维序列 |
软件集成信息
类别 |
详情 |
运行时引擎 |
NeMo 24.12 |
支持的硬件微架构 |
NVIDIA H100 - 80GB、NVIDIA A100 |
操作系统 |
Linux |
提示格式
由于这是一个基础模型,不推荐或要求特定的提示格式。
训练、测试和评估数据集
训练与测试数据集
- 数据组成:由英语和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)以及代码组成。来源涵盖网页、对话、文章等多种文档类型。还使用了来自Qwen的合成数据进行改进。语料库涵盖法律、数学、科学、金融等多个领域,还包含少量问答和对齐风格的数据以提高模型准确性。
- 数据收集:混合方式,包括自动、人工和合成。
- 数据标注:混合方式,包括自动、人工和合成。
评估数据集
- 数据收集:混合方式,包括人工和合成。
- 数据标注:混合方式,包括人工、合成和自动。
评估指标
评估类型 |
具体指标 |
得分 |
数据集链接 |
常识理解评估 |
ARC Challenge 25 - shot |
94.97 |
Dataset |
常识理解评估 |
Hellaswag 10 - shot |
89.00 |
Dataset |
常识理解评估 |
Winogrande 5 - shot |
84.45 |
Dataset |
常识理解评估 |
CommonsenseQA 7 - shot |
86.73 |
Dataset |
编码评估 |
MBPP (sanitized) 3 - shot |
77.82 |
Dataset |
编码评估 |
MBPP+ 0 - shot |
67.20 |
Dataset |
编码评估 |
HumanEval 0 - shot |
60.37 |
Dataset |
编码评估 |
HumanEval+ 0 - shot |
54.27 |
无 |
数学评估 |
GSM8K 8 - shot CoT |
93.71 |
Dataset |
数学评估 |
MATH 4 - shot CoT |
59.42 |
Dataset |
数学评估 |
MATH - Lvl 5 4 - shot CoT |
35.19 |
Dataset |
数学评估 |
MATH - 500 4 - shot CoT |
57.37 |
Dataset |
通用评估 |
MMLU - Pro 5 - shot CoT |
60.51 |
Dataset |
通用评估 |
MMLU 5 - shot |
84.21 |
Dataset |
🔧 技术细节
该模型使用混合模型架构,主要由Mamba - 2和MLP层组成,仅结合了十个注意力层。这种架构设计使得模型在处理长上下文时具有较好的性能。模型的训练数据来源广泛,包括多种语言的文本和代码,并且使用了合成数据进行改进。在评估方面,使用了多个数据集从常识理解、编码、数学和通用知识等多个维度对模型进行评估。
📄 许可证
本模型的使用受NVIDIA内部科学研究与开发模型许可证的约束。
⚠️ 重要提示
- 该模型是基于最初从互联网抓取的包含有毒语言、不安全内容和社会偏见的数据进行训练的。因此,该模型可能会放大这些偏见并返回有毒回复,尤其是在使用有毒提示时。即使提示本身不包含任何明确的冒犯性内容,该模型也可能生成不准确的答案、遗漏关键信息或包含无关或冗余的文本,从而产生社会不可接受或不良的文本。
- 该模型在通过某些编码(包括Base16、Hex/ASCII和盲文)进行间接提示注入时表现出弱点,不过与其他类似模型相比,它对更常见的Base64向量注入更具弹性。
💡 使用建议
NVIDIA认为可信AI是一项共同责任,我们已经制定了政策和实践,以支持广泛的AI应用开发。当按照我们的服务条款下载或使用该模型时,开发人员应与他们的内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。如需了解有关该模型的更多详细道德考量信息,请参阅负责任使用指南。请在此报告安全漏洞或NVIDIA AI相关问题。