🚀 Llama-3.3-Nemotron-70B-Select模型
Llama-3.3-Nemotron-70B-Select是基于Meta-Llama-3.3-70B-Instruct微调的大语言模型,借助特定建模方法为用户查询挑选最有帮助的回复,可用于商业用途。
🚀 快速开始
你可以使用HuggingFace Transformers库来使用该模型,需要2块或更多80GB的GPU(NVIDIA Ampere或更新版本),并至少有150GB的可用磁盘空间用于下载。
此代码已在Transformers v4.45.0、torch v2.3.0a0 + 40ec155e58.nv24.3和2块A100 80GB GPU上进行了测试,但任何支持meta - llama/Llama-3.1-70B-Instruct的设置也应支持此模型。如果你遇到问题,可以考虑执行pip install -U transformers
。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.3-Nemotron-70B-Select"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What is the distance between the Earth and the Sun?"
good_response = "The distance from Earth to the Sun is 93 million miles"
bad_response = "The distance from Earth to the Sun is 39 million miles"
for response in [good_response, bad_response]:
messages = [{'role': "user", "content": prompt}, {'role': "assistant", "content": response}]
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=False, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=1, return_dict_in_generate=True, output_scores=True)
quality = response_token_ids['scores'][0][0][0].item()
print(quality)
✨ 主要特性
- 精准选择:能够从大语言模型生成的回复中,挑选出对用户查询最有帮助的回复。
- 商业可用:该模型可用于商业用途。
📚 详细文档
模型概述
Llama-3.3-Nemotron-70B-Select以Meta-Llama-3.3-70B-Instruct为基础,通过缩放的Bradley - Terry建模进行微调,旨在为用户查询选择最有帮助的大语言模型生成的回复。
许可证/使用条款
本模型的使用受NVIDIA开放模型许可证的约束。更多信息请参考Llama 3.3社区许可协议。本模型基于Llama构建。
Arena Hard排行榜
截至2025年3月18日,使用反馈编辑推理时间缩放(Feedback-Edit Inference Time Scaling,ITS)方法增强的模型在Arena Hard上表现最佳。
反馈编辑推理时间缩放系统包含以下模型:
- Llama-3.3-Nemotron-70B-Feedback
- Llama-3.3-Nemotron-70B-Edit
- Llama-3.3-Nemotron-70B-Select
模型 |
Arena Hard (95% CI) |
Llama-3.3-Nemotron-Super-49B-v1 + Feedback-Edit ITS |
93.4 (-1.1, 1.0) |
Llama-3.1-Nemotron-70B-Instruct + Feedback-Edit ITS |
92.7 (-1.2, 0.9) |
o1-mini-2024-09-12 |
92.0 (-1.2, 1.0) |
o1-preview-2024-09-12 |
90.4 (-1.1, 1.3) |
Llama-3.3-Nemotron-Super-49B-v1 |
88.3 (-1.6, 1.6) |
claude-3-5-sonnet-20241022 |
85.2 (-1.4, 1.6) |
Llama-3.1-Nemotron-70B-Instruct |
84.9 (-1.7, 1.8) |
使用场景
Llama-3.3-Nemotron-70B-Select适用于那些希望通过推理时间缩放来提高通用领域、开放式任务性能的用户,它可以为用户查询选择最有帮助的大语言模型生成的回复。
发布日期
2025年3月18日
参考文献
模型架构
属性 |
详情 |
模型类型 |
Transformer |
网络架构 |
Llama 3.3 |
本模型基于Llama-3.3-70B-Instruct开发,包含700亿个参数。
输入
属性 |
详情 |
输入类型 |
文本 |
输入格式 |
字符串 |
输入参数 |
一维 (1D) |
其他输入相关属性 |
最大128k个标记 |
输出
属性 |
详情 |
输出类型 |
浮点数 |
输出格式 |
单个浮点数 |
输出参数 |
一维 (1D) |
其他输出相关属性 |
浮点数表示回复的质量,值越高表示质量越高 |
软件集成
- 运行时引擎:[NeMo - 24.05.llama.3.1]
- 支持的硬件微架构兼容性:NVIDIA Ampere、NVIDIA Hopper、NVIDIA Turing
- 支持的操作系统:Linux
模型版本
v1.0
训练和测试数据集
训练数据集
- 数据集名称:HelpSteer3
- 数据集链接:https://huggingface.co/datasets/nvidia/HelpSteer3
- 数据收集方法:混合(人工、合成)
- 标注方法:人工
- 属性:包含38,459个提示,每个提示都有一对回复以及人工对这对回复的偏好。
测试数据集
- 数据集名称:HelpSteer3
- 数据集链接:https://huggingface.co/datasets/nvidia/HelpSteer3
- 数据收集方法:混合(人工、合成)
- 标注方法:人工
- 属性:包含2,017个提示,每个提示都有一对回复以及人工对这对回复的偏好。
推理
- 推理引擎:Triton
- 测试硬件:H100、A100 80GB、A100 40GB
局限性
该模型在包含从互联网爬取的有毒语言、不安全内容和社会偏见的数据上进行训练。因此,该模型可能会放大这些偏见,并在接收到有毒提示时返回有毒回复。即使提示本身不包含任何明确的冒犯性内容,该模型也可能生成不准确的答案、遗漏关键信息或包含无关或冗余的文本,从而产生社会不可接受或不良的文本。
伦理考量
NVIDIA认为可信AI是一项共同责任,我们已经制定了政策和实践,以支持广泛的AI应用开发。当开发者按照我们的服务条款下载或使用该模型时,应与支持的模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
如需了解该模型伦理考量的更多详细信息,请参阅模型卡片++ 可解释性、偏差、安全与保障和隐私子卡片。
请在此报告安全漏洞或NVIDIA AI相关问题。
🔧 技术细节
该模型以Meta-Llama-3.3-70B-Instruct为基础模型,使用缩放的Bradley - Terry建模进行微调。在训练和测试过程中,使用了HelpSteer3数据集,该数据集通过混合的人工和合成数据收集方法获取,并经过人工标注。模型在推理时使用Triton推理服务器,支持多种NVIDIA硬件和Linux操作系统。
📄 许可证
本模型的使用受NVIDIA开放模型许可证的约束。更多信息请参考Llama 3.3社区许可协议。