🚀 Llama-3.3-Nemotron-70B-Select
Llama-3.3-Nemotron-70B-Selectは、Meta-Llama-3.3-70B-Instructをベースに構築された大規模言語モデルです。このモデルは、Bradley-Terryモデリングを用いて微調整され、ユーザーのクエリに対する最も有益な応答を選択することができます。商業利用も可能です。
🚀 クイックスタート
2つ以上の80GB GPU(NVIDIA Ampere以降)を使用し、少なくとも150GBの空きディスク容量がある環境で、HuggingFace Transformersライブラリを使ってこのモデルを利用できます。
このコードはTransformers v4.45.0、torch v2.3.0a0 + 40ec155e58.nv24.3、および2つのA100 80GB GPUでテストされていますが、meta - llama/Llama - 3.1 - 70B - Instructをサポートする任意のセットアップでもこのモデルをサポートするはずです。問題が発生した場合は、pip install -U transformers
を試してみると良いでしょう。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/Llama-3.3-Nemotron-70B-Select"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What is the distance between the Earth and the Sun?"
good_response = "The distance from Earth to the Sun is 93 million miles"
bad_response = "The distance from Earth to the Sun is 39 million miles"
for response in [good_response, bad_response]:
messages = [{'role': "user", "content": prompt}, {'role': "assistant", "content": response}]
tokenized_message = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=False, return_tensors="pt", return_dict=True)
response_token_ids = model.generate(tokenized_message['input_ids'].cuda(),attention_mask=tokenized_message['attention_mask'].cuda(), max_new_tokens=1, return_dict_in_generate=True, output_scores=True)
quality = response_token_ids['scores'][0][0][0].item()
print(quality)
✨ 主な機能
Llama-3.3-Nemotron-70B-Selectは、ユーザーのクエリに対して、LLMが生成した最も有益な応答を選択することができます。特に、一般ドメインのオープンエンドタスクで推論時スケーリングを通じてパフォーマンスを向上させたいユーザーに適しています。
📚 ドキュメント
モデル概要
Llama-3.3-Nemotron-70B-SelectはMeta-Llama-3.3-70B-Instructを基礎とし、scaled Bradley-Terryモデリングを用いて微調整された大規模言語モデルです。商業利用が可能です。
ライセンス/利用規約
このモデルの利用は、NVIDIA Open Model Licenseに準拠します。追加情報については、Llama 3.3 Community License Agreementを参照してください。Llamaを使用して構築されています。
Arena Hard LeaderBoard
2025年3月18日現在、Feedback-Edit Inference Time Scaling (ITS)アプローチを用いたモデルは、Arena Hardで最も高いパフォーマンスを示します。
Feedback-Edit Inference Time Scalingシステムは以下のモデルで構成されています。
- Llama-3.3-Nemotron-70B-Feedback
- Llama-3.3-Nemotron-70B-Edit
- Llama-3.3-Nemotron-70B-Select
モデル |
Arena Hard (95% CI) |
Llama-3.3-Nemotron-Super-49B-v1 + Feedback-Edit ITS |
93.4 (-1.1, 1.0) |
Llama-3.1-Nemotron-70B-Instruct + Feedback-Edit ITS |
92.7 (-1.2, 0.9) |
o1-mini-2024-09-12 |
92.0 (-1.2, 1.0) |
o1-preview-2024-09-12 |
90.4 (-1.1, 1.3) |
Llama-3.3-Nemotron-Super-49B-v1 |
88.3 (-1.6, 1.6) |
claude-3-5-sonnet-20241022 |
85.2 (-1.4, 1.6) |
Llama-3.1-Nemotron-70B-Instruct |
84.9 (-1.7, 1.8) |
モデルのバージョン
v1.0
トレーニングとテストデータセット
トレーニングデータセット
- データセット名: HelpSteer3
- データセットリンク: https://huggingface.co/datasets/nvidia/HelpSteer3
- データ収集方法: [Hybrid: Human, Synthetic]
- ラベリング方法: [Human]
- 特性: 38,459のプロンプトがあり、それぞれに一対の応答と、その一対の応答間の人間の嗜好が含まれています。
テストデータセット
- データセット名: HelpSteer3
- データセットリンク: https://huggingface.co/datasets/nvidia/HelpSteer3
- データ収集方法: [Hybrid: Human, Synthetic]
- ラベリング方法: [Human]
- 特性: 2,017のプロンプトがあり、それぞれに一対の応答と、その一対の応答間の人間の嗜好が含まれています。
推論
- エンジン: Triton
- テストハードウェア: H100, A100 80GB, A100 40GB
制限事項
このモデルは、元々インターネットからクロールされた、有毒な言語、不安全な内容、および社会的バイアスを含むデータでトレーニングされています。したがって、特に有毒なプロンプトが与えられた場合、これらのバイアスを拡大し、有毒な応答を返す可能性があります。また、プロンプト自体に明示的な不快な内容が含まれていなくても、不正確な回答を生成したり、重要な情報を省略したり、関連性のないまたは冗長なテキストを含んだりして、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。
倫理的考慮事項
NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者はサポートモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期せぬ製品の誤用に対応するようにする必要があります。
このモデルの倫理的考慮事項の詳細については、Model Card++のExplainability、Bias、Safety & Security、およびPrivacyサブカードを参照してください。
セキュリティの脆弱性またはNVIDIA AIに関する懸念事項は、こちらから報告してください。
参考文献
モデルアーキテクチャ
属性 |
详情 |
モデルタイプ |
Transformer |
ネットワークアーキテクチャ |
Llama 3.3 |
このモデルはLlama-3.3-70B-Instructを基礎として開発されており、700億のパラメータを含んでいます。
入力
属性 |
详情 |
入力タイプ |
テキスト |
入力形式 |
文字列 |
入力パラメータ |
一次元 (1D) |
その他の入力関連プロパティ |
最大128kトークン |
出力
属性 |
详情 |
出力タイプ |
浮動小数点数 |
出力形式 |
単一の浮動小数点数 |
出力パラメータ |
一次元 (1D) |
その他の出力関連プロパティ |
浮動小数点数の値は応答の品質を表し、値が高いほど品質が高いことを意味します。 |
ソフトウェア統合
- ランタイムエンジン:
- サポートされるハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Ampere
- NVIDIA Hopper
- NVIDIA Turing
- サポートされるオペレーティングシステム: Linux
📄 ライセンス
このモデルはNVIDIA Open Model Licenseの下で提供されています。