Llama-3.1-Minitron-4B-Width-Base开源文本模型 - 免费部署助力多类语言生成任务

首页

Llama 3.1 Minitron 4B Width Base

由 nvidia 开发

Llama-3.1-Minitron-4B-Width-Base是一个基础文本到文本模型，通过对Llama-3.1-8B进行剪枝获得，适用于多种自然语言生成任务。

大型语言模型

Transformers

英语开源协议:其他 #剪枝蒸馏模型 #多领域文本生成 #GQA高效推理

下载量 10.15k

发布时间 : 8/13/2024

模型简介

该模型通过对Llama-3.1-8B进行剪枝获得，剪枝了模型的嵌入大小和MLP中间维度，并使用940亿个标记进行蒸馏持续训练，最终得到该模型。

模型特点

剪枝优化

通过对Llama-3.1-8B进行剪枝，优化了模型的嵌入大小和MLP中间维度，提高了效率。

蒸馏训练

使用940亿个标记进行蒸馏持续训练，提升了模型的性能。

商业用途

该模型已准备好用于商业用途，适用于多种自然语言生成任务。

模型能力

文本生成

自然语言理解

代码生成

使用案例

自然语言处理

文本补全

用于自动补全段落或句子，提升写作效率。

在8000个字符以内效果最佳。

问答系统

用于构建问答系统，回答用户提出的问题。

在零样本评估中表现良好。

代码生成

代码补全

用于自动补全代码片段，提升开发效率。

在MBPP评估中得分为32.0。

🚀 Llama-3.1-Minitron-4B-Width-Base

Llama-3.1-Minitron-4B-Width-Base是一个基础的文本生成模型，可用于多种自然语言生成任务。它通过对Llama-3.1-8B进行剪枝和蒸馏训练得到，适用于商业用途。

🚀 快速开始

对该模型的支持将在即将发布的 transformers 版本中添加。在此期间，请从源代码安装该库：

pip install git+https://github.com/huggingface/transformers

现在我们可以对该模型进行推理：

import torch
from transformers import AutoTokenizer, LlamaForCausalLM

# 加载分词器和模型
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)

device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)

# 准备输入文本
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)

# 生成输出
outputs = model.generate(inputs, max_length=20)

# 解码并打印输出
output_text = tokenizer.decode(outputs[0])
print(output_text)

✨ 主要特性

模型来源：通过对Llama-3.1-8B进行剪枝，具体是对模型嵌入大小和MLP中间维度进行剪枝，然后使用940亿个标记进行蒸馏继续训练得到。
商业可用：该模型可用于商业用途。
多领域适用：训练语料包含英语、多语言文本以及代码，涵盖法律、数学、科学、金融等多个领域。

📦 安装指南

支持该模型的功能将在即将发布的 transformers 版本中添加。在此之前，你可以从源代码安装该库：

pip install git+https://github.com/huggingface/transformers

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, LlamaForCausalLM

# 加载分词器和模型
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)

device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)

# 准备输入文本
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)

# 生成输出
outputs = model.generate(inputs, max_length=20)

# 解码并打印输出
output_text = tokenizer.decode(outputs[0])
print(output_text)

📚 详细文档

模型概述

Llama-3.1-Minitron-4B-Width-Base是一个基础的文本生成模型，可用于多种自然语言生成任务。它是通过对Llama-3.1-8B进行剪枝和蒸馏训练得到的。

许可证

该模型遵循 NVIDIA Open Model License Agreement 发布。

模型架构

属性	详情
模型类型	Transformer Decoder (Auto-Regressive Language Model)
网络架构	Llama-3.1
输入类型	文本
输入格式	字符串
输入参数	无
输入相关其他属性	在8000个字符以内效果良好
输出类型	文本
输出格式	字符串
输出参数	1D
输出相关其他属性	无
模型嵌入大小	3072
注意力头数量	32
MLP中间维度	9216
层数	32
特殊架构	Grouped-Query Attention (GQA) 和 Rotary Position Embeddings (RoPE)

软件集成

运行时引擎：

NeMo 24.05

支持的硬件微架构兼容性：

NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Hopper
NVIDIA Lovelace

首选/支持的操作系统：

Linux

数据集与训练

数据收集方法： 自动化

标注方法： 不适用

特性： 训练语料包含英语、多语言文本以及代码，来源涵盖网页、对话、文章等多种文档类型，领域包括法律、数学、科学、金融等。在继续训练集中，引入了少量问答和对齐风格的数据以提高模型性能。

数据时效性： 预训练数据截止到2023年6月。

评估结果

概述

5-shot性能：使用 Massive Multitask Language Understanding 评估语言理解能力，平均分为60.5。
零样本性能：使用 LM Evaluation Harness 中的部分数据集进行评估，结果如下： | HellaSwag | Winogrande | GSM8K | ARC-Challenge | XLSum | | :---- | :---- | :---- | :---- | :---- | | 76.1 | 73.5 | 41.2 | 55.6 | 28.7 |
代码生成性能：使用 MBPP 评估，得分为32.0。