Zamba2-2.7B开源AI模型 - 高性能低延迟，轻松应对多样任务需求

首页

Zamba2 2.7B

由 Zyphra 开发

Zamba2-2.7B是一个由状态空间和Transformer模块组成的混合模型，采用Mamba2模块和共享注意力模块，具有高性能和低延迟特点。

大型语言模型

Transformers

开源协议:Apache-2.0 #混合状态空间架构 #低延迟推理 #设备端优化

下载量 2,550

发布时间 : 7/9/2024

模型简介

Zamba2-2.7B是一个混合架构模型，结合了状态空间和Transformer模块，通过Mamba2模块和共享注意力模块实现高性能和低延迟推理。

模型特点

混合架构

结合状态空间和Transformer模块，利用Mamba2模块和共享注意力模块提升性能。

参数优化

通过共享注意力权重和应用LoRA投影器，在控制参数数量的同时实现深度专门化。

高性能

在参数少于3B的模型中取得领先性能，与更大规模的模型具有竞争力。

低延迟和小内存占用

独特的混合SSM架构使其具有极低的推理延迟、快速的生成速度和较小的内存占用。

模型能力

文本生成

代码生成

通用语言理解

使用案例

通用语言模型应用

问答系统

用于回答复杂问题，如历史事件分析。

生成详细且准确的回答。

代码生成

基于自然语言描述生成代码片段。

生成符合描述的代码。

🚀 Zamba2-2.7B模型卡片

Zamba2-2.7B是一个由状态空间和Transformer模块组成的混合模型。它大致遵循Zamba架构，该架构由一个Mamba主干与共享的Transformer模块交替组成（详见模型细节中的图示）。与Zamba1相比，Zamba2-2.7B有三大改进：

用Mamba2模块取代了Mamba1模块。
不再使用单个共享注意力模块，而是采用两个共享注意力模块，它们以ABAB模式贯穿整个网络。
对每个共享MLP模块应用LoRA投影器，这使得网络能够在跨深度调用共享层时对MLP进行专门化。LoRA使我们只需少量增加总参数数量，就能实现深度专门化。

Zamba2-2.7B使用Mistral v0.1分词器，在从开放网络数据集（包括Zyda）获取的3T文本和代码数据上进行了预训练。随后，在第二阶段，Zamba2-2.7B在100B高质量令牌的混合数据上进行了退火处理。

注意：这是Zamba2-2.7B在HuggingFace上的临时实现。它可能尚未完全兼容所有旨在与HuggingFace模型交互的框架和工具。

Zamba2-2.7B的独立PyTorch实现可在此处找到。

🚀 快速开始

前提条件

要使用Zamba2-2.7B，需从源代码安装transformers：

git clone https://github.com/huggingface/transformers.git
cd transformers && pip install .

要安装运行Mamba2内核所需的依赖项，需从源代码安装mamba-ssm（由于与PyTorch存在兼容性问题）以及causal-conv1d：

git clone https://github.com/state-spaces/mamba.git
cd mamba && git checkout v2.1.0 && pip install .
pip install causal-conv1d

你可以在不使用优化的Mamba2内核的情况下运行模型，但不建议这样做，因为这将导致显著更高的延迟和内存使用。

推理

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "What factors contributed to the fall of the Roman Empire?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

✨ 主要特性

架构创新：采用混合的状态空间和Transformer架构，结合Mamba模块与共享注意力模块，提升性能。
参数优化：通过共享注意力权重和应用LoRA投影器，在控制参数数量的同时实现深度专门化。
高性能：在参数少于3B的模型中取得领先的性能，与一些更大规模的模型具有竞争力。
低延迟和小内存占用：独特的混合SSM架构使其具有极低的推理延迟、快速的生成速度和较小的内存占用。

📦 安装指南

安装`transformers`

git clone https://github.com/huggingface/transformers.git
cd transformers && pip install .

安装Mamba2内核依赖

git clone https://github.com/state-spaces/mamba.git
cd mamba && git checkout v2.1.0 && pip install .
pip install causal-conv1d

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "What factors contributed to the fall of the Roman Empire?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

📚 详细文档

模型细节

Zamba2-2.7B利用并扩展了我们最初的Zamba混合SSM-注意力架构。核心Zamba架构由Mamba层的主干与一个或多个共享注意力层交替组成（Zamba1中有一个共享注意力层，Zamba2中有两个）。这种注意力具有共享权重，以最小化模型的参数成本。我们发现，将原始模型嵌入连接到该注意力模块的输入可以提高性能，这可能是因为跨深度更好地维护了信息。Zamba2架构还将LoRA投影矩阵应用于共享MLP，以在每个模块中获得一些额外的表达能力，并允许每个共享模块根据其独特位置进行微调，同时保持额外的参数开销较小。