Llama-3.3-Nemotron-70B-Select開源大模型 - 免費選出最有用的查詢響應

首頁

Llama 3.3 Nemotron 70B Select

由nvidia開發

基於Meta-Llama-3.3-70B-Instruct構建的大型語言模型，用於選擇對用戶查詢最有幫助的LLM生成響應。

大型語言模型

Transformers

開源協議:其他 #響應質量評分 #Bradley-Terry建模 #128k上下文窗口

下載量 427

發布時間 : 3/14/2025

模型概述

該模型通過擴展的Bradley-Terry建模進行微調，專門用於評估和選擇對用戶查詢最有幫助的LLM生成響應，適用於希望通過推理時間擴展提升通用開放任務性能的用戶。

模型特點

商業用途準備就緒

該模型已準備好用於商業用途，受NVIDIA開放模型許可證約束。

高性能響應選擇

通過擴展的Bradley-Terry建模進行微調，能夠準確評估和選擇最有幫助的LLM生成響應。

反饋-編輯推理時間擴展系統

作為反饋-編輯推理時間擴展系統的一部分，與Feedback和Edit模型協同工作，提供更優的推理性能。

大上下文窗口

支持最多128k個token的輸入，適合處理長文本內容。

模型能力

響應質量評估

文本理解

長文本處理

使用案例

AI輔助決策

多響應質量排序

對同一用戶查詢的多個LLM生成響應進行質量評估和排序

輸出浮點值表示響應質量，數值越高表示質量越高

AI系統優化

推理時間擴展系統

作為反饋-編輯推理時間擴展系統的一部分，提升整體系統性能

在Arena Hard排行榜上表現優異

🚀 Llama-3.3-Nemotron-70B-Select模型

Llama-3.3-Nemotron-70B-Select是基於Meta-Llama-3.3-70B-Instruct微調的大語言模型，藉助特定建模方法為用戶查詢挑選最有幫助的回覆，可用於商業用途。

🚀 快速開始

你可以使用HuggingFace Transformers庫來使用該模型，需要2塊或更多80GB的GPU（NVIDIA Ampere或更新版本），並至少有150GB的可用磁盤空間用於下載。

此代碼已在Transformers v4.45.0、torch v2.3.0a0 + 40ec155e58.nv24.3和2塊A100 80GB GPU上進行了測試，但任何支持meta - llama/Llama-3.1-70B-Instruct的設置也應支持此模型。如果你遇到問題，可以考慮執行pip install -U transformers。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "nvidia/Llama-3.3-Nemotron-70B-Select"

model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "What is the distance between the Earth and the Sun?"
good_response = "The distance from Earth to the Sun is 93 million miles"
bad_response =  "The distance from Earth to the Sun is 39 million miles"

for response in [good_response, bad_response]:
    messages = [{'role': "user", "content": prompt}, {'role': "assistant", "content": response}]
    tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=False, return_tensors="pt", return_dict=True)
    response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(),  max_new_tokens=1, return_dict_in_generate=True, output_scores=True)
    quality = response_token_ids['scores'][0][0][0].item()
    print(quality)

# Example quality - note that higher scores means higher quality, and scores can be negative.

# good_response: -4.78125
# bad_response -7.21875

✨ 主要特性

精準選擇：能夠從大語言模型生成的回覆中，挑選出對用戶查詢最有幫助的回覆。
商業可用：該模型可用於商業用途。

📚 詳細文檔

模型概述

Llama-3.3-Nemotron-70B-Select以Meta-Llama-3.3-70B-Instruct為基礎，通過縮放的Bradley - Terry建模進行微調，旨在為用戶查詢選擇最有幫助的大語言模型生成的回覆。

許可證/使用條款

本模型的使用受NVIDIA開放模型許可證的約束。更多信息請參考Llama 3.3社區許可協議。本模型基於Llama構建。

Arena Hard排行榜

截至2025年3月18日，使用反饋編輯推理時間縮放（Feedback-Edit Inference Time Scaling，ITS）方法增強的模型在Arena Hard上表現最佳。

反饋編輯推理時間縮放系統包含以下模型：

模型	Arena Hard (95% CI)
Llama-3.3-Nemotron-Super-49B-v1 + Feedback-Edit ITS	93.4 (-1.1, 1.0)
Llama-3.1-Nemotron-70B-Instruct + Feedback-Edit ITS	92.7 (-1.2, 0.9)
o1-mini-2024-09-12	92.0 (-1.2, 1.0)
o1-preview-2024-09-12	90.4 (-1.1, 1.3)
Llama-3.3-Nemotron-Super-49B-v1	88.3 (-1.6, 1.6)
claude-3-5-sonnet-20241022	85.2 (-1.4, 1.6)
Llama-3.1-Nemotron-70B-Instruct	84.9 (-1.7, 1.8)

使用場景

Llama-3.3-Nemotron-70B-Select適用於那些希望通過推理時間縮放來提高通用領域、開放式任務性能的用戶，它可以為用戶查詢選擇最有幫助的大語言模型生成的回覆。

發佈日期

2025年3月18日

參考文獻

模型架構

屬性	詳情
模型類型	Transformer
網絡架構	Llama 3.3

本模型基於Llama-3.3-70B-Instruct開發，包含700億個參數。

輸入

屬性	詳情
輸入類型	文本
輸入格式	字符串
輸入參數	一維 (1D)
其他輸入相關屬性	最大128k個標記

輸出

屬性	詳情
輸出類型	浮點數
輸出格式	單個浮點數
輸出參數	一維 (1D)
其他輸出相關屬性	浮點數表示回覆的質量，值越高表示質量越高

軟件集成

運行時引擎：[NeMo - 24.05.llama.3.1]
支持的硬件微架構兼容性：NVIDIA Ampere、NVIDIA Hopper、NVIDIA Turing
支持的操作系統：Linux

模型版本

v1.0

訓練和測試數據集

訓練數據集

數據集名稱：HelpSteer3
數據集鏈接：https://huggingface.co/datasets/nvidia/HelpSteer3
數據收集方法：混合（人工、合成）
標註方法：人工
屬性：包含38,459個提示，每個提示都有一對回覆以及人工對這對回覆的偏好。

測試數據集

數據集名稱：HelpSteer3
數據集鏈接：https://huggingface.co/datasets/nvidia/HelpSteer3
數據收集方法：混合（人工、合成）
標註方法：人工
屬性：包含2,017個提示，每個提示都有一對回覆以及人工對這對回覆的偏好。

推理

推理引擎：Triton
測試硬件：H100、A100 80GB、A100 40GB

侷限性

該模型在包含從互聯網爬取的有毒語言、不安全內容和社會偏見的數據上進行訓練。因此，該模型可能會放大這些偏見，並在接收到有毒提示時返回有毒回覆。即使提示本身不包含任何明確的冒犯性內容，該模型也可能生成不準確的答案、遺漏關鍵信息或包含無關或冗餘的文本，從而產生社會不可接受或不良的文本。

倫理考量

NVIDIA認為可信AI是一項共同責任，我們已經制定了政策和實踐，以支持廣泛的AI應用開發。當開發者按照我們的服務條款下載或使用該模型時，應與支持的模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決不可預見的產品濫用問題。

如需瞭解該模型倫理考量的更多詳細信息，請參閱模型卡片++ 可解釋性、偏差、安全與保障和隱私子卡片。

請在此報告安全漏洞或NVIDIA AI相關問題。

🔧 技術細節

該模型以Meta-Llama-3.3-70B-Instruct為基礎模型，使用縮放的Bradley - Terry建模進行微調。在訓練和測試過程中，使用了HelpSteer3數據集，該數據集通過混合的人工和合成數據收集方法獲取，並經過人工標註。模型在推理時使用Triton推理服務器，支持多種NVIDIA硬件和Linux操作系統。