🚀 Mistral-NeMo-Minitron-8B-Base
Mistral-NeMo-Minitron-8B-Base是一個基礎的文本生成模型,可用於多種自然語言生成任務。它通過對Mistral-NeMo 12B進行剪枝和蒸餾得到,能有效處理各類文本任務,為自然語言處理提供強大支持。
🚀 快速開始
對該模型的支持將在即將發佈的transformers
版本中添加。在此期間,請從源代碼安裝該庫:
pip install git+https://github.com/huggingface/transformers
現在我們可以對這個模型進行推理:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "nvidia/Mistral-NeMo-Minitron-8B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = 'cuda'
dtype = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
outputs = model.generate(inputs, max_length=20)
output_text = tokenizer.decode(outputs[0])
print(output_text)
✨ 主要特性
- 模型來源:通過對Mistral-NeMo 12B進行剪枝和蒸餾得到。
- 訓練方式:剪枝後使用3800億個標記進行蒸餾式持續訓練。
- 適用任務:適用於多種自然語言生成任務。
📦 安裝指南
對該模型的支持將在即將發佈的transformers
版本中添加。在此期間,請從源代碼安裝該庫:
pip install git+https://github.com/huggingface/transformers
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "nvidia/Mistral-NeMo-Minitron-8B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = 'cuda'
dtype = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
outputs = model.generate(inputs, max_length=20)
output_text = tokenizer.decode(outputs[0])
print(output_text)
📚 詳細文檔
模型概述
Mistral-NeMo-Minitron-8B-Base是一個基礎的文本到文本模型,可用於各種自然語言生成任務。它是一個大語言模型(LLM),通過對Mistral-NeMo 12B進行剪枝和蒸餾得到;具體來說,我們對模型中的嵌入維度和MLP中間維度進行了剪枝。剪枝後,我們使用3800億個標記進行蒸餾式持續訓練,以得到最終模型;為此,我們使用了Nemotron-4 15B中使用的連續預訓練數據語料庫。更多詳細信息請參考我們的技術報告。
模型開發者:NVIDIA
模型日期:Mistral-NeMo-Minitron-8B-Base於2024年7月24日至2024年8月10日進行訓練。
模型架構
Mistral-NeMo-Minitron-8B-Base使用的模型嵌入大小為4096,有32個注意力頭,MLP中間維度為11520,總共40層。此外,它使用了分組查詢注意力(GQA)和旋轉位置嵌入(RoPE)。
屬性 |
詳情 |
架構類型 |
Transformer解碼器(自迴歸語言模型) |
網絡架構 |
Mistral-NeMo |
輸入類型 |
文本 |
輸入格式 |
字符串 |
輸入參數 |
一維(1D) |
其他輸入相關屬性 |
在8000個字符以內效果良好 |
輸出類型 |
文本 |
輸出格式 |
字符串 |
輸出參數 |
1D |
其他輸出相關屬性 |
無 |
軟件集成
運行時引擎:
支持的硬件微架構兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Lovelace
操作系統:
數據集與訓練
按數據集劃分的數據收集方法:自動化
按數據集劃分的標註方法:不適用
特性:
Mistral-NeMo-Minitron-8B-Base的訓練語料庫由英語和多語言文本以及代碼組成。我們的數據源涵蓋了各種文檔類型,如網頁、對話、文章和其他書面材料。語料庫涵蓋的領域包括法律、數學、科學、金融等。在我們的持續訓練集中,我們引入了一小部分問答和對齊風格的數據,以提高模型性能。
數據時效性:
訓練於2024年進行,預訓練數據的截止日期為2023年6月。
評估結果
5次射擊性能。使用大規模多任務語言理解評估語言理解能力:
零次射擊性能。使用LM評估工具中的選定數據集進行評估,並添加了額外數據:
HellaSwag |
Winogrande |
GSM8K |
ARC挑戰 |
XLSum |
83.0 |
80.4 |
58.5 |
64.4 |
32.0 |
代碼生成性能。使用MBPP進行評估:
推理
引擎:TensorRT-LLM
測試硬件:NVIDIA A100
數據類型:BFloat16
侷限性
該模型在包含有毒語言、不安全內容和社會偏見的數據上進行訓練,這些數據最初是從互聯網上爬取的。因此,該模型可能會放大這些偏見,並在受到有毒提示時返回有毒響應。即使提示本身不包含任何明確的冒犯性內容,該模型也可能生成不準確的答案,遺漏關鍵信息,或者包含無關或冗餘的文本,從而產生社會不可接受或不受歡迎的文本。
倫理考慮
NVIDIA認為可信AI是一項共同責任,我們已經制定了政策和實踐,以支持廣泛的AI應用開發。當按照我們的服務條款下載或使用時,開發者應與他們的內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。
請在此報告安全漏洞或NVIDIA AI相關問題。
參考文獻
📄 許可證
該模型根據NVIDIA開放模型許可協議發佈。