🚀 Llama-3.1-Minitron-4B-Width-Base
Llama-3.1-Minitron-4B-Width-Base是一個基礎的文本生成模型,可用於多種自然語言生成任務。它通過對Llama-3.1-8B進行剪枝和蒸餾訓練得到,適用於商業用途。
🚀 快速開始
對該模型的支持將在即將發佈的 transformers
版本中添加。在此期間,請從源代碼安裝該庫:
pip install git+https://github.com/huggingface/transformers
現在我們可以對該模型進行推理:
import torch
from transformers import AutoTokenizer, LlamaForCausalLM
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
outputs = model.generate(inputs, max_length=20)
output_text = tokenizer.decode(outputs[0])
print(output_text)
✨ 主要特性
- 模型來源:通過對Llama-3.1-8B進行剪枝,具體是對模型嵌入大小和MLP中間維度進行剪枝,然後使用940億個標記進行蒸餾繼續訓練得到。
- 商業可用:該模型可用於商業用途。
- 多領域適用:訓練語料包含英語、多語言文本以及代碼,涵蓋法律、數學、科學、金融等多個領域。
📦 安裝指南
支持該模型的功能將在即將發佈的 transformers
版本中添加。在此之前,你可以從源代碼安裝該庫:
pip install git+https://github.com/huggingface/transformers
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, LlamaForCausalLM
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
outputs = model.generate(inputs, max_length=20)
output_text = tokenizer.decode(outputs[0])
print(output_text)
📚 詳細文檔
模型概述
Llama-3.1-Minitron-4B-Width-Base是一個基礎的文本生成模型,可用於多種自然語言生成任務。它是通過對Llama-3.1-8B進行剪枝和蒸餾訓練得到的。
許可證
該模型遵循 NVIDIA Open Model License Agreement 發佈。
模型架構
屬性 |
詳情 |
模型類型 |
Transformer Decoder (Auto-Regressive Language Model) |
網絡架構 |
Llama-3.1 |
輸入類型 |
文本 |
輸入格式 |
字符串 |
輸入參數 |
無 |
輸入相關其他屬性 |
在8000個字符以內效果良好 |
輸出類型 |
文本 |
輸出格式 |
字符串 |
輸出參數 |
1D |
輸出相關其他屬性 |
無 |
模型嵌入大小 |
3072 |
注意力頭數量 |
32 |
MLP中間維度 |
9216 |
層數 |
32 |
特殊架構 |
Grouped-Query Attention (GQA) 和 Rotary Position Embeddings (RoPE) |
軟件集成
運行時引擎:
支持的硬件微架構兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Lovelace
首選/支持的操作系統:
數據集與訓練
數據收集方法: 自動化
標註方法: 不適用
特性:
訓練語料包含英語、多語言文本以及代碼,來源涵蓋網頁、對話、文章等多種文檔類型,領域包括法律、數學、科學、金融等。在繼續訓練集中,引入了少量問答和對齊風格的數據以提高模型性能。
數據時效性: 預訓練數據截止到2023年6月。
評估結果
概述
推理
推理引擎: TensorRT-LLM
測試硬件: NVIDIA A100
數據類型: BFloat16
侷限性
該模型在包含有毒語言、不安全內容和社會偏見的數據上進行訓練,因此可能會放大這些偏見並返回有毒回覆,尤其是在輸入有毒提示時。即使提示本身不包含任何明確的冒犯性內容,模型也可能生成不準確、遺漏關鍵信息、包含無關或冗餘文本的答案,產生社會不可接受或不良的文本。
倫理考慮
NVIDIA認為可信AI是一項共同責任,並已制定政策和實踐,以支持廣泛的AI應用開發。當開發者根據我們的服務條款下載或使用該模型時,應與內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。
請 在此 報告安全漏洞或NVIDIA AI相關問題。
參考文獻
📄 許可證
該模型遵循 NVIDIA Open Model License Agreement 發佈。