模型概述
模型特點
模型能力
使用案例
🚀 Llama-3.3-Nemotron-70B-Feedback模型
Llama-3.3-Nemotron-70B-Feedback是一個基於Meta-Llama-3.3-70B-Instruct微調的大語言模型,可針對大語言模型生成的用戶查詢響應提供反饋,支持商業使用。
🚀 快速開始
你可以使用HuggingFace Transformers庫來使用該模型,需要2塊或更多80GB的GPU(NVIDIA Ampere或更新版本),並且至少有150GB的可用磁盤空間以容納下載內容。
此代碼已在Transformers v4.45.0、torch v2.3.0a0 + 40ec155e58.nv24.3和2塊A100 80GB GPU上進行了測試,但任何支持meta-llama/Llama-3.1-70B-Instruct的設置也應支持此模型。如果你遇到問題,可以考慮執行pip install -U transformers
。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.3-Nemotron-70B-Feedback"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
def generate_feedback(messages, model, tokenizer, temperature=0.7):
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=128, pad_token_id = tokenizer.eos_token_id, num_return_sequences=1, temperature=temperature)
generated_tokens =response_token_ids[:, len(tokenized_message['input_ids'][0]):]
generated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
return generated_text
prompt = "What is the distance between the Earth and the Sun?"
response = "The distance from Earth to the Sun is 93 million miles"
messages = [
{"role": "user", "content": prompt},
{"role": "assistant", "content": response},
{"role": "user", "content": "Evaluate the response to the previous prompt in terms of how helpful it is overall. Start the evaluation with the statement - The response is {not / slightly / partially / mostly / perfectly} helpful. Then provide a brief explanation of the evaluation in 2 to 10 sentences."}
]
feedback = generate_feedback(messages, model, tokenizer, temperature=0.7)
print(feedback)
## Illustrative example - feedback generated might not be identical since temperature sampling is used
# The response is partially helpful. It provides a concise answer to the prompt. However, the lack of additional information or context limits its usefulness. It could have been more informative by including the average distance in astronomical units (AU) and explaining the variation in distance due to the elliptical orbit.
✨ 主要特性
- 基於Meta-Llama-3.3-70B-Instruct微調,可針對大語言模型生成的用戶查詢響應提供反饋。
- 支持商業使用。
📚 詳細文檔
模型概述
Llama-3.3-Nemotron-70B-Feedback基於Meta-Llama-3.3-70B-Instruct,通過監督微調提供反饋,支持商業使用。
Arena Hard排行榜
截至2025年3月18日,使用Feedback-Edit推理時間縮放(ITS)方法增強的模型在Arena Hard上表現最佳。相關模型如下:
模型 | Arena Hard (95% CI) |
---|---|
Llama-3.3-Nemotron-Super-49B-v1 + Feedback-Edit ITS | 93.4 (-1.1, 1.0) |
Llama-3.1-Nemotron-70B-Instruct + Feedback-Edit ITS | 92.7 (-1.2, 0.9) |
o1-mini-2024-09-12 | 92.0 (-1.2, 1.0) |
o1-preview-2024-09-12 | 90.4 (-1.1, 1.3) |
Llama-3.3-Nemotron-Super-49B-v1 | 88.3 (-1.6, 1.6) |
claude-3-5-sonnet-20241022 | 85.2 (-1.4, 1.6) |
Llama-3.1-Nemotron-70B-Instruct | 84.9 (-1.7, 1.8) |
使用場景
該模型為對通過推理時間縮放提高通用領域、開放式任務性能感興趣的用戶,提供大語言模型生成的用戶查詢響應的反饋。
發佈日期
2025年3月18日
參考資料
- Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
- HelpSteer2-Preference
- SteerLM method
- HelpSteer
- HelpSteer2
- The future of AI: Built with Llama
- Meta's Llama 3.3 Webpage
- Meta's Llama 3.3 Model Card
模型架構
屬性 | 詳情 |
---|---|
模型類型 | Transformer |
網絡架構 | Llama 3.3 |
該模型基於Llama-3.3-70B-Instruct開發,包含700億個參數。
輸入
屬性 | 詳情 |
---|---|
輸入類型 | 文本 |
輸入格式 | 字符串 |
輸入參數 | 一維 (1D) |
其他輸入屬性 | 最大128k個令牌 |
輸出
屬性 | 詳情 |
---|---|
輸出類型 | 文本 |
輸出格式 | 字符串 |
輸出參數 | 一維 (1D) |
其他輸出屬性 | 最大4k個令牌 |
軟件集成
屬性 | 詳情 |
---|---|
運行時引擎 | [NeMo - 24.05.llama.3.1] |
支持的硬件微架構兼容性 | NVIDIA Ampere、NVIDIA Hopper、NVIDIA Turing |
支持的操作系統 | Linux |
訓練和測試數據集
訓練數據集
- 數據集名稱:HelpSteer3
- 數據集鏈接:https://huggingface.co/datasets/nvidia/HelpSteer3
- 數據收集方法:混合(人工、合成)
- 標註方法:人工
- 屬性:77,564個提示 - 響應,每個標註最多3條自由文本反饋(每條50 - 250字),闡述響應的整體有用性。
測試數據集
- 數據集名稱:HelpSteer3
- 數據集鏈接:https://huggingface.co/datasets/nvidia/HelpSteer3
- 數據收集方法:混合(人工、合成)
- 標註方法:人工
- 屬性:4,078個提示 - 響應,每個標註最多3條自由文本反饋(每條50 - 250字),闡述響應的整體有用性。
推理
屬性 | 詳情 |
---|---|
推理引擎 | Triton |
測試硬件 | H100、A100 80GB、A100 40GB |
侷限性
該模型在包含從互聯網爬取的有毒語言、不安全內容和社會偏見的數據上進行訓練。因此,模型可能會放大這些偏見並返回有毒響應,尤其是在輸入有毒提示時。即使提示本身不包含任何明確的冒犯性內容,模型也可能生成不準確的答案、遺漏關鍵信息或包含無關或冗餘的文本,產生社會不可接受或不良的文本。
倫理考慮
NVIDIA認為可信AI是共同的責任,我們已經制定了政策和實踐,以支持廣泛的AI應用開發。當按照我們的服務條款下載或使用時,開發者應與支持的模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。 有關該模型倫理考慮的更多詳細信息,請參閱模型卡片++ 可解釋性、偏差、安全與保障和隱私子卡片。 請在此報告安全漏洞或NVIDIA AI相關問題。
引用
如果你發現此模型有用,請引用以下工作:
@misc{wang2025dedicatedfeedbackeditmodels,
title={Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks},
author={Zhilin Wang and Jiaqi Zeng and Olivier Delalleau and Daniel Egert and Ellie Evans and Hoo-Chang Shin and Felipe Soares and Yi Dong and Oleksii Kuchaiev},
year={2025},
eprint={2503.04378},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.04378},
}
📄 許可證
本模型的使用受 NVIDIA開放模型許可證 約束。附加信息:Llama 3.3社區許可協議。基於Llama構建。
⚠️ 重要提示
該模型在包含有毒語言、不安全內容和社會偏見的數據上訓練,可能放大這些偏見並返回有毒響應,使用時需謹慎。
💡 使用建議
若遇到問題,可執行
pip install -U transformers
進行更新。使用時與支持的模型團隊合作,確保滿足相關行業和用例要求。



