Mistral-NeMo-Minitron-8B-Base開源文本生成模型

首頁

Mistral NeMo Minitron 8B Base

由nvidia開發

Mistral-NeMo-Minitron-8B-Base是一個基礎的文本生成模型，通過對Mistral-NeMo 12B進行剪枝和蒸餾得到，適用於多種自然語言生成任務。

大型語言模型

Transformers

開源協議:其他 #剪枝蒸餾模型 #多任務文本生成 #GQA注意力機制

下載量 7,924

發布時間 : 8/19/2024

模型概述

該模型是一個大語言模型(LLM)，通過對Mistral-NeMo 12B進行剪枝和蒸餾得到，能有效處理各類文本任務，為自然語言處理提供強大支持。

模型特點

剪枝與蒸餾優化

通過對Mistral-NeMo 12B進行剪枝和蒸餾得到，減少了模型規模同時保持性能

高效訓練

剪枝後使用3800億個標記進行蒸餾式持續訓練，優化模型性能

先進架構

採用分組查詢注意力(GQA)和旋轉位置嵌入(RoPE)等先進技術

模型能力

文本生成

段落補全

語言理解

代碼生成

使用案例

內容生成

段落補全

根據提示補全段落內容

生成連貫的後續文本

教育

科學知識問答

回答關於科學領域的問題

提供準確的科學知識解釋

🚀 Mistral-NeMo-Minitron-8B-Base

Mistral-NeMo-Minitron-8B-Base是一個基礎的文本生成模型，可用於多種自然語言生成任務。它通過對Mistral-NeMo 12B進行剪枝和蒸餾得到，能有效處理各類文本任務，為自然語言處理提供強大支持。

🚀 快速開始

對該模型的支持將在即將發佈的transformers版本中添加。在此期間，請從源代碼安裝該庫：

pip install git+https://github.com/huggingface/transformers

現在我們可以對這個模型進行推理：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加載分詞器和模型
model_path = "nvidia/Mistral-NeMo-Minitron-8B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)

device = 'cuda'
dtype = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)

# 準備輸入文本
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)

# 生成輸出
outputs = model.generate(inputs, max_length=20)

# 解碼並打印輸出
output_text = tokenizer.decode(outputs[0])
print(output_text)

✨ 主要特性

模型來源：通過對Mistral-NeMo 12B進行剪枝和蒸餾得到。
訓練方式：剪枝後使用3800億個標記進行蒸餾式持續訓練。
適用任務：適用於多種自然語言生成任務。

📦 安裝指南

對該模型的支持將在即將發佈的transformers版本中添加。在此期間，請從源代碼安裝該庫：

pip install git+https://github.com/huggingface/transformers

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加載分詞器和模型
model_path = "nvidia/Mistral-NeMo-Minitron-8B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)

device = 'cuda'
dtype = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)

# 準備輸入文本
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)

# 生成輸出
outputs = model.generate(inputs, max_length=20)

# 解碼並打印輸出
output_text = tokenizer.decode(outputs[0])
print(output_text)

📚 詳細文檔

模型概述

Mistral-NeMo-Minitron-8B-Base是一個基礎的文本到文本模型，可用於各種自然語言生成任務。它是一個大語言模型（LLM），通過對Mistral-NeMo 12B進行剪枝和蒸餾得到；具體來說，我們對模型中的嵌入維度和MLP中間維度進行了剪枝。剪枝後，我們使用3800億個標記進行蒸餾式持續訓練，以得到最終模型；為此，我們使用了Nemotron-4 15B中使用的連續預訓練數據語料庫。更多詳細信息請參考我們的技術報告。

模型開發者：NVIDIA

模型日期：Mistral-NeMo-Minitron-8B-Base於2024年7月24日至2024年8月10日進行訓練。

模型架構

Mistral-NeMo-Minitron-8B-Base使用的模型嵌入大小為4096，有32個注意力頭，MLP中間維度為11520，總共40層。此外，它使用了分組查詢注意力（GQA）和旋轉位置嵌入（RoPE）。

屬性	詳情
架構類型	Transformer解碼器（自迴歸語言模型）
網絡架構	Mistral-NeMo
輸入類型	文本
輸入格式	字符串
輸入參數	一維（1D）
其他輸入相關屬性	在8000個字符以內效果良好
輸出類型	文本
輸出格式	字符串
輸出參數	1D
其他輸出相關屬性	無

軟件集成

運行時引擎：

NeMo 24.05

支持的硬件微架構兼容性：

NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Hopper
NVIDIA Lovelace

操作系統：

Linux

數據集與訓練

按數據集劃分的數據收集方法：自動化

按數據集劃分的標註方法：不適用

特性： Mistral-NeMo-Minitron-8B-Base的訓練語料庫由英語和多語言文本以及代碼組成。我們的數據源涵蓋了各種文檔類型，如網頁、對話、文章和其他書面材料。語料庫涵蓋的領域包括法律、數學、科學、金融等。在我們的持續訓練集中，我們引入了一小部分問答和對齊風格的數據，以提高模型性能。

數據時效性：訓練於2024年進行，預訓練數據的截止日期為2023年6月。

評估結果

5次射擊性能。使用大規模多任務語言理解評估語言理解能力：

平均值
69.5

零次射擊性能。使用LM評估工具中的選定數據集進行評估，並添加了額外數據：

HellaSwag	Winogrande	GSM8K	ARC挑戰	XLSum
83.0	80.4	58.5	64.4	32.0

代碼生成性能。使用MBPP進行評估：

分數
43.77

推理

引擎：TensorRT-LLM

測試硬件：NVIDIA A100

數據類型：BFloat16

侷限性

該模型在包含有毒語言、不安全內容和社會偏見的數據上進行訓練，這些數據最初是從互聯網上爬取的。因此，該模型可能會放大這些偏見，並在受到有毒提示時返回有毒響應。即使提示本身不包含任何明確的冒犯性內容，該模型也可能生成不準確的答案，遺漏關鍵信息，或者包含無關或冗餘的文本，從而產生社會不可接受或不受歡迎的文本。