🚀 Llama-3.1-Minitron-4B-Width-Base
Llama-3.1-Minitron-4B-Width-Base是一个基础的文本生成模型,可用于多种自然语言生成任务。它通过对Llama-3.1-8B进行剪枝和蒸馏训练得到,适用于商业用途。
🚀 快速开始
对该模型的支持将在即将发布的 transformers
版本中添加。在此期间,请从源代码安装该库:
pip install git+https://github.com/huggingface/transformers
现在我们可以对该模型进行推理:
import torch
from transformers import AutoTokenizer, LlamaForCausalLM
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
outputs = model.generate(inputs, max_length=20)
output_text = tokenizer.decode(outputs[0])
print(output_text)
✨ 主要特性
- 模型来源:通过对Llama-3.1-8B进行剪枝,具体是对模型嵌入大小和MLP中间维度进行剪枝,然后使用940亿个标记进行蒸馏继续训练得到。
- 商业可用:该模型可用于商业用途。
- 多领域适用:训练语料包含英语、多语言文本以及代码,涵盖法律、数学、科学、金融等多个领域。
📦 安装指南
支持该模型的功能将在即将发布的 transformers
版本中添加。在此之前,你可以从源代码安装该库:
pip install git+https://github.com/huggingface/transformers
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, LlamaForCausalLM
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
outputs = model.generate(inputs, max_length=20)
output_text = tokenizer.decode(outputs[0])
print(output_text)
📚 详细文档
模型概述
Llama-3.1-Minitron-4B-Width-Base是一个基础的文本生成模型,可用于多种自然语言生成任务。它是通过对Llama-3.1-8B进行剪枝和蒸馏训练得到的。
许可证
该模型遵循 NVIDIA Open Model License Agreement 发布。
模型架构
属性 |
详情 |
模型类型 |
Transformer Decoder (Auto-Regressive Language Model) |
网络架构 |
Llama-3.1 |
输入类型 |
文本 |
输入格式 |
字符串 |
输入参数 |
无 |
输入相关其他属性 |
在8000个字符以内效果良好 |
输出类型 |
文本 |
输出格式 |
字符串 |
输出参数 |
1D |
输出相关其他属性 |
无 |
模型嵌入大小 |
3072 |
注意力头数量 |
32 |
MLP中间维度 |
9216 |
层数 |
32 |
特殊架构 |
Grouped-Query Attention (GQA) 和 Rotary Position Embeddings (RoPE) |
软件集成
运行时引擎:
支持的硬件微架构兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Lovelace
首选/支持的操作系统:
数据集与训练
数据收集方法: 自动化
标注方法: 不适用
特性:
训练语料包含英语、多语言文本以及代码,来源涵盖网页、对话、文章等多种文档类型,领域包括法律、数学、科学、金融等。在继续训练集中,引入了少量问答和对齐风格的数据以提高模型性能。
数据时效性: 预训练数据截止到2023年6月。
评估结果
概述
推理
推理引擎: TensorRT-LLM
测试硬件: NVIDIA A100
数据类型: BFloat16
局限性
该模型在包含有毒语言、不安全内容和社会偏见的数据上进行训练,因此可能会放大这些偏见并返回有毒回复,尤其是在输入有毒提示时。即使提示本身不包含任何明确的冒犯性内容,模型也可能生成不准确、遗漏关键信息、包含无关或冗余文本的答案,产生社会不可接受或不良的文本。
伦理考虑
NVIDIA认为可信AI是一项共同责任,并已制定政策和实践,以支持广泛的AI应用开发。当开发者根据我们的服务条款下载或使用该模型时,应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
请 在此 报告安全漏洞或NVIDIA AI相关问题。
参考文献
📄 许可证
该模型遵循 NVIDIA Open Model License Agreement 发布。