Mambaoutai開源模型 - 免費使用涵蓋法英雙語及代碼數據的小型檢查點

首頁

Mambaoutai

由lightonai開發

Mambaoutai是一系列小型Mamba檢查點，訓練數據涵蓋法語、英語和代碼，旨在供社區探索。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #多語言生成 #高效推理 #指令微調

下載量 29

發布時間 : 3/18/2024

模型概述

Mambaoutai是基於Mamba架構的小型語言模型，支持法語和英語文本生成，可用於代碼生成和自然語言處理任務。

模型特點

多語言支持

支持法語和英語兩種語言的文本生成

高效推理

僅有16億參數，可在CPU上以合理速度運行

訓練檢查點

提供訓練過程中的多個檢查點，便於研究和分析

設備端推理

支持在llama.cpp等框架上運行，適合邊緣設備

模型能力

文本生成

代碼生成

多語言處理

使用案例

教育

語言學習輔助

生成法語或英語的學習材料

內容創作

文章續寫

根據提示生成連貫的文本內容

編程輔助

代碼補全

根據上下文生成代碼片段

🚀 Mambaoutai 1.6B

Mambaoutai是此博客文章中描述的所有實驗和訓練運行的成果，該文章分享了該模型系列的所有細節。Mambaoutai是一系列小型Mamba檢查點，供社區探索使用，在法語、英語和代碼數據上進行訓練。我們使用WSD調度器運行了兩個不同的衰減階段，併發布了有無指令數據預訓練的模型檢查點。

🚀 快速開始

Mambaoutai可用於文本生成、推理等任務。你可以按照以下步驟使用該模型。

✨ 主要特性

多語言支持：在法語、英語和代碼數據上進行訓練。
不同訓練階段檢查點：發佈了有無指令數據預訓練的模型檢查點。
輕量級模型：僅有1.6B參數，可在CPU上以合理速度運行。

📦 安裝指南

你需要從main分支安裝transformers，直到transformers=4.39.0版本發佈。

pip install git+https://github.com/huggingface/transformers@main

我們還建議你使用以下命令安裝causal-conv1d和mamba-ssm：

pip install causal-conv1d>=1.2.0
pip install mamba-ssm>=1.2.0

如果這兩個庫未安裝，將使用“eager”實現（不推薦），否則將使用更優化的CUDA內核。

💻 使用示例

基礎用法

使用以下代碼片段從模型生成文本：

from transformers import MambaConfig, MambaForCausalLM, AutoTokenizer
import torch

if model_has_instruct_data:
    # 使用聊天令牌
    prompt = ”<start_user>Tell me something about Paris.<end_message><start_assistant>”
else:
    # 溫和地提示未經過指令調優的模型
    prompt = ”This is a text about Paris. Paris is”

tokenizer = AutoTokenizer.from_pretrained("lightonai/mambaoutai")
model = MambaForCausalLM.from_pretrained("lightonai/mambaoutai")
input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"]

out = model.generate(input_ids, max_new_tokens=10)
print(tokenizer.batch_decode(out))

高級用法

你可以在倉庫分支中找到一些訓練檢查點。在訓練過程中的某個時間點對應的分支上。你可以通過在from_pretrained方法中添加revision參數，使用這些訓練檢查點進行推理。例如，要加載預訓練30000步後的模型檢查點，可以使用以下代碼：

from transformers import MambaConfig, MambaForCausalLM, AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("lightonai/mambaoutai", revision="pre-30000")
model = MambaForCausalLM.from_pretrained("lightonai/mambaoutai", revision="pre-30000")
input_ids = tokenizer("What is a mamba?", return_tensors="pt")["input_ids"]

out = model.generate(input_ids, max_new_tokens=10)
print(tokenizer.batch_decode(out))

設備上推理

由於Mambaoutai僅有1.6B參數，它可以在CPU上以合理速度運行。以下是在llama.cpp上運行它的示例：

# 克隆llama.cpp倉庫並從源代碼編譯
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

# 創建虛擬環境並安裝依賴
conda create -n mamba-cpp python=3.10
conda activate mamba-cpp
pip install -r requirements/requirements-convert-hf-to-gguf.txt

# 從本倉庫下載權重、分詞器、配置、分詞器配置和特殊令牌映射，並將它們放在目錄'Mambaoutai/'中
mkdir Mambaoutai

# 將權重轉換為GGUF格式
python convert-hf-to-gguf.py Mambaoutai

# 使用提示進行推理
./main -m Mambaoutai/ggml-model-f16.gguf -p "Building a website can be done in 10 simple steps:\nStep 1:" -n 400 -e -ngl 1

🔧 技術細節

訓練硬件

無指令數據的模型檢查點在OVH Cloud提供的NVIDIA DGX H100上進行了全面訓練，而有指令數據的衰減階段在Orange Cloud Avenue的HPE Cray（配備8xH100）上進行。消融實驗在MeluXina的16個節點（4xA100 - 40GB）上進行。

模型超參數

模型超參數的更多細節如下表所示：

參數	詳情
d_model	2688
n_layer	28
vocab_size	65024
context_len	4096
rms_norm	true
residual_in_fp32	true
fused_add_norm	true
conv_kernel	4
d_inner	5376
state_size	16
dtype	bfloat16
tie_word_embeddings	false
non embeddings params	1.27B