Llama-2-7b-hf-4bit-64rank开源LoftQ模型 - 免费提升大语言模型微调性能和效率

首页

Llama 2 7b Hf 4bit 64rank

由 LoftQ 开发

LoftQ（LoRA微调感知量化）模型，提供量化后的主干网络和LoRA适配器，专为LoRA微调设计，提升大语言模型在量化过程中的微调性能和效率。

大型语言模型

Transformers

英语开源协议:MIT #LoRA微调感知量化 #4bit高效推理 #数学问题求解

下载量 1,754

发布时间 : 11/21/2023

模型简介

该模型基于LLAMA-2-7b，通过LoftQ方法进行4位量化，同时提供LoRA适配器，旨在解决大语言模型在量化过程中与LoRA微调不兼容的问题。

模型特点

量化支持

提供4位量化后的主干网络，显著减少模型存储和计算资源需求。

LoRA微调感知

专门为LoRA微调设计的量化方法，优化微调过程中的性能和效率。

高效存储

量化后的模型大小约为4.2 GiB，适合资源受限的环境。

模型能力

文本生成

LoRA微调

使用案例

数学问题求解

GSM8K数学问题解答

在GSM8K数据集上进行微调后，模型可用于解答数学问题。

微调后模型在GSM8K上的准确率为35.0%。

文本生成

WikiText-2文本生成

在WikiText-2数据集上进行微调，用于生成连贯的文本。

微调后模型在WikiText-2上的困惑度为5.24。

🚀 LoftQ初始化

LoftQ（LoRA微调感知量化）在给定全精度预训练权重W的情况下，提供量化后的主干网络Q以及LoRA适配器A和B。本项目旨在解决大语言模型在量化过程中与LoRA微调不兼容的问题，通过提供特定的量化主干和适配器，提升模型在微调时的性能和效率。

| 论文 | 代码 | PEFT示例 |

本模型Llama-2-7b-hf-4bit-64rank源自 LLAMA-2-7b。主干网络存储于LoftQ/Llama-2-7b-hf-4bit-64rank，LoRA适配器存储于subfolder='loftq_init'。

✨ 主要特性

量化支持：提供量化后的主干网络和LoRA适配器，减少模型存储和计算资源需求。
LoRA微调感知：专门为LoRA微调设计的量化方法，提高微调效率。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

以下是加载此模型并准备进行LoRA微调的示例：

import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel

MODEL_ID = "LoftQ/Llama-2-7b-hf-4bit-64rank"

base_model = AutoModelForCausalLM.from_pretrained(MODEL_ID)
peft_model = PeftModel.from_pretrained(
    base_model,
    MODEL_ID,
    subfolder="loftq_init",
    is_trainable=True,
)

# Do training with peft_model ...

高级用法

以下是模型在 GSM8K 上微调后进行推理的示例代码：

import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel

MODEL_ID = "LoftQ/Llama-2-7b-hf-4bit-64rank"

base_model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID, 
    torch_dtype=torch.bfloat16,  # you may change it with different models
    quantization_config=BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.bfloat16,  # bfloat16 is recommended
        bnb_4bit_use_double_quant=False,
        bnb_4bit_quant_type='nf4',
    ),
)
peft_model = PeftModel.from_pretrained(
    base_model,
    MODEL_ID,
    subfolder="gsm8k",
    is_trainable=True,
)

# Do inference with peft_model ...

完整代码请见我们的 Github仓库

📚 详细文档

模型信息

主干网络

属性	详情
存储格式	bitsandbytes nf4
大小	~ 4.2 GiB
加载格式	bitsandbytes nf4
GPU加载大小	~ 4.2 GiB

LoRA适配器

属性	详情
秩	64
lora_alpha	16
目标模块	["down_proj", "up_proj", "q_proj", "k_proj", "v_proj", "o_proj", "gate_proj"]

实验结果

我们在 GSM8K 和 WikiText-2 的监督微调任务上进行了实验。

模型	比特数	秩	LoRA初始化	GSM8K	WikiText-2
LLAMA-2-7b	16	64	高斯分布 + 0	36.9	5.08
LLAMA-2-7b	4	64	高斯分布 + 0 (QLoRA)	35.1	5.70
LLAMA-2-7b	4	64	LoftQ	35.0	5.24

🔧 技术细节

文档未提供具体技术细节内容，暂不展示。

📄 许可证

本项目采用MIT许可证。

📖 引用

@article{li2023loftq,
  title={Loftq: Lora-fine-tuning-aware quantization for large language models},
  author={Li, Yixiao and Yu, Yifan and Liang, Chen and He, Pengcheng and Karampatziakis, Nikos and Chen, Weizhu and Zhao, Tuo},
  journal={arXiv preprint arXiv:2310.08659},
  year={2023}
}