Llama-3.1-Minitron-4B-Width-Base開源文本模型 - 免費部署助力多類語言生成任務

首頁

Llama 3.1 Minitron 4B Width Base

由nvidia開發

Llama-3.1-Minitron-4B-Width-Base是一個基礎文本到文本模型，通過對Llama-3.1-8B進行剪枝獲得，適用於多種自然語言生成任務。

大型語言模型

Transformers

英語開源協議:其他 #剪枝蒸餾模型 #多領域文本生成 #GQA高效推理

下載量 10.15k

發布時間 : 8/13/2024

模型概述

該模型通過對Llama-3.1-8B進行剪枝獲得，剪枝了模型的嵌入大小和MLP中間維度，並使用940億個標記進行蒸餾持續訓練，最終得到該模型。

模型特點

剪枝優化

通過對Llama-3.1-8B進行剪枝，優化了模型的嵌入大小和MLP中間維度，提高了效率。

蒸餾訓練

使用940億個標記進行蒸餾持續訓練，提升了模型的性能。

商業用途

該模型已準備好用於商業用途，適用於多種自然語言生成任務。

模型能力

文本生成

自然語言理解

代碼生成

使用案例

自然語言處理

文本補全

用於自動補全段落或句子，提升寫作效率。

在8000個字符以內效果最佳。

問答系統

用於構建問答系統，回答用戶提出的問題。

在零樣本評估中表現良好。

代碼生成

代碼補全

用於自動補全代碼片段，提升開發效率。

在MBPP評估中得分為32.0。

🚀 Llama-3.1-Minitron-4B-Width-Base

Llama-3.1-Minitron-4B-Width-Base是一個基礎的文本生成模型，可用於多種自然語言生成任務。它通過對Llama-3.1-8B進行剪枝和蒸餾訓練得到，適用於商業用途。

🚀 快速開始

對該模型的支持將在即將發佈的 transformers 版本中添加。在此期間，請從源代碼安裝該庫：

pip install git+https://github.com/huggingface/transformers

現在我們可以對該模型進行推理：

import torch
from transformers import AutoTokenizer, LlamaForCausalLM

# 加載分詞器和模型
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)

device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)

# 準備輸入文本
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)

# 生成輸出
outputs = model.generate(inputs, max_length=20)

# 解碼並打印輸出
output_text = tokenizer.decode(outputs[0])
print(output_text)

✨ 主要特性

模型來源：通過對Llama-3.1-8B進行剪枝，具體是對模型嵌入大小和MLP中間維度進行剪枝，然後使用940億個標記進行蒸餾繼續訓練得到。
商業可用：該模型可用於商業用途。
多領域適用：訓練語料包含英語、多語言文本以及代碼，涵蓋法律、數學、科學、金融等多個領域。

📦 安裝指南

支持該模型的功能將在即將發佈的 transformers 版本中添加。在此之前，你可以從源代碼安裝該庫：

pip install git+https://github.com/huggingface/transformers

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, LlamaForCausalLM

# 加載分詞器和模型
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)

device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)

# 準備輸入文本
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)

# 生成輸出
outputs = model.generate(inputs, max_length=20)

# 解碼並打印輸出
output_text = tokenizer.decode(outputs[0])
print(output_text)

📚 詳細文檔

模型概述

Llama-3.1-Minitron-4B-Width-Base是一個基礎的文本生成模型，可用於多種自然語言生成任務。它是通過對Llama-3.1-8B進行剪枝和蒸餾訓練得到的。

許可證

該模型遵循 NVIDIA Open Model License Agreement 發佈。

模型架構

屬性	詳情
模型類型	Transformer Decoder (Auto-Regressive Language Model)
網絡架構	Llama-3.1
輸入類型	文本
輸入格式	字符串
輸入參數	無
輸入相關其他屬性	在8000個字符以內效果良好
輸出類型	文本
輸出格式	字符串
輸出參數	1D
輸出相關其他屬性	無
模型嵌入大小	3072
注意力頭數量	32
MLP中間維度	9216
層數	32
特殊架構	Grouped-Query Attention (GQA) 和 Rotary Position Embeddings (RoPE)

軟件集成

運行時引擎：

NeMo 24.05

支持的硬件微架構兼容性：

NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Hopper
NVIDIA Lovelace

首選/支持的操作系統：

Linux

數據集與訓練

數據收集方法： 自動化

標註方法： 不適用

特性： 訓練語料包含英語、多語言文本以及代碼，來源涵蓋網頁、對話、文章等多種文檔類型，領域包括法律、數學、科學、金融等。在繼續訓練集中，引入了少量問答和對齊風格的數據以提高模型性能。

數據時效性： 預訓練數據截止到2023年6月。

評估結果

概述

5-shot性能：使用 Massive Multitask Language Understanding 評估語言理解能力，平均分為60.5。
零樣本性能：使用 LM Evaluation Harness 中的部分數據集進行評估，結果如下： | HellaSwag | Winogrande | GSM8K | ARC-Challenge | XLSum | | :---- | :---- | :---- | :---- | :---- | | 76.1 | 73.5 | 41.2 | 55.6 | 28.7 |
代碼生成性能：使用 MBPP 評估，得分為32.0。