🚀 Nemotron-H-47B-Base-8K
NVIDIA開發的大型語言模型Nemotron-H-47B-Base-8K,可用於文本補全任務。它採用了獨特的混合架構,支持多種語言,具有8K上下文長度,為科研和開發提供了強大的支持。
🚀 快速開始
示例代碼
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-47B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-47B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")
prompt = "When was NVIDIA founded?"
outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))
✨ 主要特性
- 混合架構:採用混合Mamba-Transformer架構,主要由Mamba - 2和MLP層組成,僅結合了五個Attention層。
- 多語言支持:支持英語、德語、西班牙語、法語、意大利語、韓語、葡萄牙語、俄語、日語和中文。
- 8K上下文長度:能夠處理較長的文本輸入。
- 可定製性:用戶可使用NeMo Framework套件中的工具對模型進行定製,包括參數高效微調(P - tuning、Adapters、LoRA等)和模型對齊(SFT、SteerLM、RLHF等)。
📚 詳細文檔
模型概述
NVIDIA Nemotron-H-47B-Base-8K是由NVIDIA開發的大型語言模型(LLM),作為給定文本的補全模型。它從Nemotron-H-56B-Base-8K使用63B個標記進行剪枝和蒸餾得到,具有8K的上下文長度。支持的語言包括英語、德語、西班牙語、法語、意大利語、韓語、葡萄牙語、俄語、日語和中文。有關模型架構、訓練和評估的更多詳細信息,請參閱項目頁面和技術報告。
許可證/使用條款
- 適用條款:使用此模型受NVIDIA內部科研和開發模型許可證的約束。
- 模型開發者:NVIDIA
- 模型日期:2024年10月 - 2025年3月
- 數據新鮮度:2024年9月。預訓練數據的截止日期為2024年9月。
使用場景
此模型適用於構建大語言模型的開發者和研究人員。
發佈日期
2025年4月12日
參考文獻
模型架構
屬性 |
詳情 |
架構類型 |
混合Mamba - Transformer |
網絡架構 |
Nemotron - H |
模型參數 |
47B |
輸入
屬性 |
詳情 |
輸入類型 |
文本 |
輸入格式 |
字符串 |
輸入參數 |
一維(1D)序列 |
其他輸入屬性 |
上下文長度可達8K。支持的語言包括德語、西班牙語、法語、意大利語、韓語、葡萄牙語、俄語、日語、中文和英語。 |
輸出
屬性 |
詳情 |
輸出類型 |
文本 |
輸出格式 |
字符串 |
輸出參數 |
一維(1D)序列 |
該AI模型設計和/或優化為在NVIDIA GPU加速系統上運行。通過利用NVIDIA的硬件(如GPU核心)和軟件框架(如CUDA庫),與僅使用CPU的解決方案相比,該模型可實現更快的訓練和推理時間。
軟件集成
屬性 |
詳情 |
運行時引擎 |
NeMo 24.12 |
支持的硬件微架構兼容性 |
NVIDIA H100 - 80GB、NVIDIA A100 |
操作系統 |
Linux |
模型版本
v1.0
提示格式
由於這是一個基礎模型,不推薦或要求特定的提示格式。
訓練、測試和評估數據集
訓練和測試數據集
Nemotron-H-47B-Base-8K的訓練語料庫包括英語和多語言文本(德語、西班牙語、法語、意大利語、韓語、葡萄牙語、俄語、日語、中文和英語)以及代碼。數據來源涵蓋各種文檔類型,如網頁、對話、文章和其他書面材料。該模型還使用了來自Qwen(基於Qwen構建)的合成數據進行改進。語料庫涵蓋的領域包括法律、數學、科學、金融等。還包含一小部分問答和對齊風格的數據以提高模型準確性。
- 數據收集:混合方式(自動化、人工、合成)
- 數據標註:混合方式(自動化、人工、合成)
評估數據集
使用以下數據集對模型進行評估:
- 數據收集:混合方式(自動化、人工、合成)
- 數據標註:混合方式(自動化、人工、合成)
常識理解評估
ARC Challenge 25-shot |
Hellaswag 10-shot |
Winogrande 5-shot |
CommonsenseQA 7-shot |
94.6 |
87.9 |
83.9 |
87.3 |
- ARC (Ai2 reasoning challenge)-Challenge:來自一個基準測試的挑戰問題集,包含小學水平的多項選擇科學問題,用於評估語言模型的問答能力。數據集
- Hellaswag:測試語言模型從多個可能選項中正確完成給定上下文的能力。數據集
- Winogrande:測試在需要常識推理的給定句子中選擇正確選項的能力。數據集
- CommonsenseQA:一個多項選擇問答數據集,需要不同類型的常識知識來預測正確答案。數據集
編碼評估
MBPP(sanitized) 3-shot |
MBPP+ 0-shot |
HumanEval 0-shot |
HumanEval+ 0-shot |
75.9 |
65.6 |
61.0 |
56.1 |
- MBPP (Mostly Basic Python Programming Problems):評估生成Python編程任務解決方案的能力。數據集
- MBPP+:MBPP的擴展版本,具有額外的驗證。數據集
- HumanEval:測試Python代碼生成和完成能力。數據集
數學評估
GSM8K 8-shot CoT |
MATH 4-shot CoT |
MATH-Lvl 5 4-shot CoT |
MATH-500 4-shot CoT |
93.3 |
57.4 |
34.2 |
57.9 |
- GSM8K (Grade School Math 8K):評估小學水平的數學應用題解決能力。數據集
- MATH-500:測試跨代數、幾何和微積分的高級數學問題解決能力。數據集
- MATH Lvl 5:僅包含MATH數據集中最難的問題。數據集
- MATH-500:測試跨代數、幾何和微積分的高級數學問題解決能力。數據集
通用評估
MMLU-Pro 5-shot-cot |
MMLU 5-shot |
61.8 |
83.6 |
- MMLU:測試涵蓋科學、人文、數學等57個學科的知識。數據集
- MMLU Pro:評估語言理解模型在14個不同領域的廣泛具有挑戰性、注重推理的問題上的表現。數據集
潛在已知使用風險
該模型在包含從互聯網上爬取的有毒語言、不安全內容和社會偏見的數據上進行訓練。因此,該模型可能會放大這些偏見並返回有毒響應,尤其是在使用有毒提示時。即使提示本身不包含任何明確的冒犯性內容,該模型也可能生成不準確的答案、遺漏關鍵信息或包含無關或冗餘的文本,從而產生社會不可接受或不良的文本。
該模型在通過某些編碼(包括Base16、十六進制/ASCII和盲文)進行間接提示注入時表現出弱點,不過與其他類似模型相比,它對更常見的Base64向量注入更具彈性。
推理
屬性 |
詳情 |
引擎 |
NeMo |
測試硬件 |
NVIDIA H100 - 80GB |
倫理考慮
NVIDIA認為可信AI是一項共同責任,並已制定政策和實踐,以支持廣泛的AI應用開發。當按照我們的服務條款下載或使用時,開發者應與內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。
有關此模型倫理考慮的更多詳細信息,請參閱負責任使用指南。
請在此報告安全漏洞或NVIDIA AI相關問題。
📄 許可證
使用此模型受NVIDIA內部科研和開發模型許可證的約束。