🚀 Nemotron-H-47B-Base-8K
NVIDIA开发的大型语言模型Nemotron-H-47B-Base-8K,可用于文本补全任务。它采用了独特的混合架构,支持多种语言,具有8K上下文长度,为科研和开发提供了强大的支持。
🚀 快速开始
示例代码
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-47B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-47B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")
prompt = "When was NVIDIA founded?"
outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))
✨ 主要特性
- 混合架构:采用混合Mamba-Transformer架构,主要由Mamba - 2和MLP层组成,仅结合了五个Attention层。
- 多语言支持:支持英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。
- 8K上下文长度:能够处理较长的文本输入。
- 可定制性:用户可使用NeMo Framework套件中的工具对模型进行定制,包括参数高效微调(P - tuning、Adapters、LoRA等)和模型对齐(SFT、SteerLM、RLHF等)。
📚 详细文档
模型概述
NVIDIA Nemotron-H-47B-Base-8K是由NVIDIA开发的大型语言模型(LLM),作为给定文本的补全模型。它从Nemotron-H-56B-Base-8K使用63B个标记进行剪枝和蒸馏得到,具有8K的上下文长度。支持的语言包括英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。有关模型架构、训练和评估的更多详细信息,请参阅项目页面和技术报告。
许可证/使用条款
- 适用条款:使用此模型受NVIDIA内部科研和开发模型许可证的约束。
- 模型开发者:NVIDIA
- 模型日期:2024年10月 - 2025年3月
- 数据新鲜度:2024年9月。预训练数据的截止日期为2024年9月。
使用场景
此模型适用于构建大语言模型的开发者和研究人员。
发布日期
2025年4月12日
参考文献
模型架构
属性 |
详情 |
架构类型 |
混合Mamba - Transformer |
网络架构 |
Nemotron - H |
模型参数 |
47B |
输入
属性 |
详情 |
输入类型 |
文本 |
输入格式 |
字符串 |
输入参数 |
一维(1D)序列 |
其他输入属性 |
上下文长度可达8K。支持的语言包括德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语。 |
输出
属性 |
详情 |
输出类型 |
文本 |
输出格式 |
字符串 |
输出参数 |
一维(1D)序列 |
该AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,该模型可实现更快的训练和推理时间。
软件集成
属性 |
详情 |
运行时引擎 |
NeMo 24.12 |
支持的硬件微架构兼容性 |
NVIDIA H100 - 80GB、NVIDIA A100 |
操作系统 |
Linux |
模型版本
v1.0
提示格式
由于这是一个基础模型,不推荐或要求特定的提示格式。
训练、测试和评估数据集
训练和测试数据集
Nemotron-H-47B-Base-8K的训练语料库包括英语和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)以及代码。数据来源涵盖各种文档类型,如网页、对话、文章和其他书面材料。该模型还使用了来自Qwen(基于Qwen构建)的合成数据进行改进。语料库涵盖的领域包括法律、数学、科学、金融等。还包含一小部分问答和对齐风格的数据以提高模型准确性。
- 数据收集:混合方式(自动化、人工、合成)
- 数据标注:混合方式(自动化、人工、合成)
评估数据集
使用以下数据集对模型进行评估:
- 数据收集:混合方式(自动化、人工、合成)
- 数据标注:混合方式(自动化、人工、合成)
常识理解评估
ARC Challenge 25-shot |
Hellaswag 10-shot |
Winogrande 5-shot |
CommonsenseQA 7-shot |
94.6 |
87.9 |
83.9 |
87.3 |
- ARC (Ai2 reasoning challenge)-Challenge:来自一个基准测试的挑战问题集,包含小学水平的多项选择科学问题,用于评估语言模型的问答能力。数据集
- Hellaswag:测试语言模型从多个可能选项中正确完成给定上下文的能力。数据集
- Winogrande:测试在需要常识推理的给定句子中选择正确选项的能力。数据集
- CommonsenseQA:一个多项选择问答数据集,需要不同类型的常识知识来预测正确答案。数据集
编码评估
MBPP(sanitized) 3-shot |
MBPP+ 0-shot |
HumanEval 0-shot |
HumanEval+ 0-shot |
75.9 |
65.6 |
61.0 |
56.1 |
- MBPP (Mostly Basic Python Programming Problems):评估生成Python编程任务解决方案的能力。数据集
- MBPP+:MBPP的扩展版本,具有额外的验证。数据集
- HumanEval:测试Python代码生成和完成能力。数据集
数学评估
GSM8K 8-shot CoT |
MATH 4-shot CoT |
MATH-Lvl 5 4-shot CoT |
MATH-500 4-shot CoT |
93.3 |
57.4 |
34.2 |
57.9 |
- GSM8K (Grade School Math 8K):评估小学水平的数学应用题解决能力。数据集
- MATH-500:测试跨代数、几何和微积分的高级数学问题解决能力。数据集
- MATH Lvl 5:仅包含MATH数据集中最难的问题。数据集
- MATH-500:测试跨代数、几何和微积分的高级数学问题解决能力。数据集
通用评估
MMLU-Pro 5-shot-cot |
MMLU 5-shot |
61.8 |
83.6 |
- MMLU:测试涵盖科学、人文、数学等57个学科的知识。数据集
- MMLU Pro:评估语言理解模型在14个不同领域的广泛具有挑战性、注重推理的问题上的表现。数据集
潜在已知使用风险
该模型在包含从互联网上爬取的有毒语言、不安全内容和社会偏见的数据上进行训练。因此,该模型可能会放大这些偏见并返回有毒响应,尤其是在使用有毒提示时。即使提示本身不包含任何明确的冒犯性内容,该模型也可能生成不准确的答案、遗漏关键信息或包含无关或冗余的文本,从而产生社会不可接受或不良的文本。
该模型在通过某些编码(包括Base16、十六进制/ASCII和盲文)进行间接提示注入时表现出弱点,不过与其他类似模型相比,它对更常见的Base64向量注入更具弹性。
推理
属性 |
详情 |
引擎 |
NeMo |
测试硬件 |
NVIDIA H100 - 80GB |
伦理考虑
NVIDIA认为可信AI是一项共同责任,并已制定政策和实践,以支持广泛的AI应用开发。当按照我们的服务条款下载或使用时,开发者应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
有关此模型伦理考虑的更多详细信息,请参阅负责任使用指南。
请在此报告安全漏洞或NVIDIA AI相关问题。
📄 许可证
使用此模型受NVIDIA内部科研和开发模型许可证的约束。