🚀 Llama-3.3-Nemotron-70B-Select模型
Llama-3.3-Nemotron-70B-Select是基於Meta-Llama-3.3-70B-Instruct微調的大語言模型,藉助特定建模方法為用戶查詢挑選最有幫助的回覆,可用於商業用途。
🚀 快速開始
你可以使用HuggingFace Transformers庫來使用該模型,需要2塊或更多80GB的GPU(NVIDIA Ampere或更新版本),並至少有150GB的可用磁盤空間用於下載。
此代碼已在Transformers v4.45.0、torch v2.3.0a0 + 40ec155e58.nv24.3和2塊A100 80GB GPU上進行了測試,但任何支持meta - llama/Llama-3.1-70B-Instruct的設置也應支持此模型。如果你遇到問題,可以考慮執行pip install -U transformers
。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.3-Nemotron-70B-Select"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What is the distance between the Earth and the Sun?"
good_response = "The distance from Earth to the Sun is 93 million miles"
bad_response = "The distance from Earth to the Sun is 39 million miles"
for response in [good_response, bad_response]:
messages = [{'role': "user", "content": prompt}, {'role': "assistant", "content": response}]
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=False, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=1, return_dict_in_generate=True, output_scores=True)
quality = response_token_ids['scores'][0][0][0].item()
print(quality)
✨ 主要特性
- 精準選擇:能夠從大語言模型生成的回覆中,挑選出對用戶查詢最有幫助的回覆。
- 商業可用:該模型可用於商業用途。
📚 詳細文檔
模型概述
Llama-3.3-Nemotron-70B-Select以Meta-Llama-3.3-70B-Instruct為基礎,通過縮放的Bradley - Terry建模進行微調,旨在為用戶查詢選擇最有幫助的大語言模型生成的回覆。
許可證/使用條款
本模型的使用受NVIDIA開放模型許可證的約束。更多信息請參考Llama 3.3社區許可協議。本模型基於Llama構建。
Arena Hard排行榜
截至2025年3月18日,使用反饋編輯推理時間縮放(Feedback-Edit Inference Time Scaling,ITS)方法增強的模型在Arena Hard上表現最佳。
反饋編輯推理時間縮放系統包含以下模型:
- Llama-3.3-Nemotron-70B-Feedback
- Llama-3.3-Nemotron-70B-Edit
- Llama-3.3-Nemotron-70B-Select
模型 |
Arena Hard (95% CI) |
Llama-3.3-Nemotron-Super-49B-v1 + Feedback-Edit ITS |
93.4 (-1.1, 1.0) |
Llama-3.1-Nemotron-70B-Instruct + Feedback-Edit ITS |
92.7 (-1.2, 0.9) |
o1-mini-2024-09-12 |
92.0 (-1.2, 1.0) |
o1-preview-2024-09-12 |
90.4 (-1.1, 1.3) |
Llama-3.3-Nemotron-Super-49B-v1 |
88.3 (-1.6, 1.6) |
claude-3-5-sonnet-20241022 |
85.2 (-1.4, 1.6) |
Llama-3.1-Nemotron-70B-Instruct |
84.9 (-1.7, 1.8) |
使用場景
Llama-3.3-Nemotron-70B-Select適用於那些希望通過推理時間縮放來提高通用領域、開放式任務性能的用戶,它可以為用戶查詢選擇最有幫助的大語言模型生成的回覆。
發佈日期
2025年3月18日
參考文獻
模型架構
屬性 |
詳情 |
模型類型 |
Transformer |
網絡架構 |
Llama 3.3 |
本模型基於Llama-3.3-70B-Instruct開發,包含700億個參數。
輸入
屬性 |
詳情 |
輸入類型 |
文本 |
輸入格式 |
字符串 |
輸入參數 |
一維 (1D) |
其他輸入相關屬性 |
最大128k個標記 |
輸出
屬性 |
詳情 |
輸出類型 |
浮點數 |
輸出格式 |
單個浮點數 |
輸出參數 |
一維 (1D) |
其他輸出相關屬性 |
浮點數表示回覆的質量,值越高表示質量越高 |
軟件集成
- 運行時引擎:[NeMo - 24.05.llama.3.1]
- 支持的硬件微架構兼容性:NVIDIA Ampere、NVIDIA Hopper、NVIDIA Turing
- 支持的操作系統:Linux
模型版本
v1.0
訓練和測試數據集
訓練數據集
- 數據集名稱:HelpSteer3
- 數據集鏈接:https://huggingface.co/datasets/nvidia/HelpSteer3
- 數據收集方法:混合(人工、合成)
- 標註方法:人工
- 屬性:包含38,459個提示,每個提示都有一對回覆以及人工對這對回覆的偏好。
測試數據集
- 數據集名稱:HelpSteer3
- 數據集鏈接:https://huggingface.co/datasets/nvidia/HelpSteer3
- 數據收集方法:混合(人工、合成)
- 標註方法:人工
- 屬性:包含2,017個提示,每個提示都有一對回覆以及人工對這對回覆的偏好。
推理
- 推理引擎:Triton
- 測試硬件:H100、A100 80GB、A100 40GB
侷限性
該模型在包含從互聯網爬取的有毒語言、不安全內容和社會偏見的數據上進行訓練。因此,該模型可能會放大這些偏見,並在接收到有毒提示時返回有毒回覆。即使提示本身不包含任何明確的冒犯性內容,該模型也可能生成不準確的答案、遺漏關鍵信息或包含無關或冗餘的文本,從而產生社會不可接受或不良的文本。
倫理考量
NVIDIA認為可信AI是一項共同責任,我們已經制定了政策和實踐,以支持廣泛的AI應用開發。當開發者按照我們的服務條款下載或使用該模型時,應與支持的模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。
如需瞭解該模型倫理考量的更多詳細信息,請參閱模型卡片++ 可解釋性、偏差、安全與保障和隱私子卡片。
請在此報告安全漏洞或NVIDIA AI相關問題。
🔧 技術細節
該模型以Meta-Llama-3.3-70B-Instruct為基礎模型,使用縮放的Bradley - Terry建模進行微調。在訓練和測試過程中,使用了HelpSteer3數據集,該數據集通過混合的人工和合成數據收集方法獲取,並經過人工標註。模型在推理時使用Triton推理服務器,支持多種NVIDIA硬件和Linux操作系統。
📄 許可證
本模型的使用受NVIDIA開放模型許可證的約束。更多信息請參考Llama 3.3社區許可協議。