acip_llama1_7b开源模型 - 可动态调整压缩率的Llama-7B压缩版模型

首页

Acip Llama1 7b

由 MerantixMomentum 开发

ACIP项目提供的可压缩版本Llama-7B模型，支持动态调整压缩率

大型语言模型

Transformers

英语开源协议:其他 #动态压缩 #可逆剪枝 #按需量化

下载量 83

发布时间 : 4/15/2025

模型简介

基于jeffwan/llama-7b-hf的可压缩模型，通过ACIP技术实现参数量的灵活调整，可在不同压缩率下保持性能

模型特点

动态压缩

支持通过size_ratio参数实时调整模型压缩率（0.0-1.0范围）

可逆压缩

压缩操作可逆，可多次调整压缩率评估性能

量化支持

支持通过bitsandbytes进行4位量化以进一步节省内存

模型能力

文本生成

模型压缩

量化推理

使用案例

资源优化

边缘设备部署

通过压缩和量化在资源受限设备上部署大模型

内存使用显著下降

多压缩率评估

快速测试不同压缩率下的模型性能

无需重复训练即可获得压缩性能曲线

🚀 ACIP应用于jeffwan/llama-7b-hf

本模型仓库是ACIP项目的一部分，提供了jeffwan/llama-7b-hf的可压缩版本。如需更多详情，请访问我们的代码仓库。

[ 🤖 GitHub | 📄 论文 | 🌐 网站 ]

🚀 快速开始

只需通过from_pretrained加载ACIP模型：

from transformers import AutoModel

model = AutoModel.from_pretrained("MerantixMomentum/acip_llama1_7b", trust_remote_code=True)

这将下载并创建一个完全参数化的ACIP模型，该模型可以被剪枝到你想要的任何压缩率。例如：

model.prune_model_by_score(size_ratio=0.4)

这将把model剪枝到其原始参数数量的40%，即60%的压缩率。 ACIP的一个独特特性是，这个操作是可逆的，也就是说，你可以根据需要多次重新运行model.prune_model_by_score，以评估不同大小的模型。最后，你可以“确定”一个特定的比例并运行：

model.compress()

这将丢弃可压缩线性层的所有剪枝掩码值。现在，模型实际上已经被压缩，你应该会观察到内存使用量显著减少（如果不重新加载ACIP模型，此步骤不可逆）。如果你愿意，你还可以运行：

model.quantize()

以节省更多内存（我们仅使用bitsandbytes测试了4位量化，但你也可以自定义此操作）。

🚀 就是这样！现在你可以像使用🤗 transformers中的任何其他因果语言模型一样，将压缩后的模型用于推理或微调。

⚠️ 重要提示

参数size_ratio的范围是从1.0到0.0，表示压缩后的模型大小。例如，0.4意味着模型仅保留原始参数数量的40%，而1.0表示完全不压缩。或者，你也可以在prune_model_by_score中设置compression_rate，这相当于size_ratio = 1.0 - compression_rate。

📦 安装指南

要运行我们模型中心的ACIP模型，你只需要最少的依赖项，即torch、transformers、peft，如果你想对模型进行量化，还可以选择安装bitsandbytes。有关可通过pip安装的依赖项及其确切版本，请参阅requirements.txt（较新的版本应该也可以正常工作）。

📄 许可证

许可证继承自基础模型jeffwan/llama-7b-hf。

📚 详细文档

引用信息

当使用或引用此模型时，请引用我们的论文：

@article{mxm2025acip,
  title={Choose Your Model Size: Any Compression by a Single Gradient Descent}, 
  author={M. Genzel, P. Putzky, P. Zhao, S. Schulze, M. Mollenhauer, R. Seidel, S. Dietzel, T. Wollmann},
  year={2025},
  journal={Preprint arXiv:2502.01717}
}

信息表格

属性	详情
模型类型	文本生成
训练数据	allenai/c4
评估指标	困惑度、准确率
标签	acip、pytorch
基础模型	jeffwan/llama-7b-hf
库名称	transformers