acip_llama31_8b开源模型 - 可动态调压缩率且性能稳定的免费大模型

首页

Acip Llama31 8b

由 MerantixMomentum 开发

ACIP项目提供的可压缩版本Llama-3.1-8B模型，支持动态调整压缩率并保持性能

大型语言模型

Transformers

英语#动态可压缩 #多语言生成 #无损剪枝

下载量 24

发布时间 : 4/15/2025

模型简介

基于Llama-3.1-8B的可压缩模型，通过ACIP技术实现参数量的灵活调整，支持无损压缩和量化

模型特点

动态可压缩性

支持通过size_ratio参数实时调整模型压缩率（0-100%），且操作可逆

无损压缩

压缩过程保留原始模型性能，压缩后仍可进行推理或微调

量化支持

兼容bitsandbytes的4比特量化方案，可进一步降低内存占用

模型能力

多语言文本生成

模型压缩

量化推理

使用案例

资源优化

边缘设备部署

通过压缩和量化在资源受限设备上部署大语言模型

内存占用减少60%以上

模型研究

压缩率影响分析

快速测试不同压缩率下的模型表现

无需重复训练即可获得压缩性能曲线

🚀 ACIP应用于meta - llama/Llama - 3.1 - 8B

本模型仓库是ACIP项目的一部分，提供了meta-llama/Llama-3.1-8B的可压缩版本。如需更多详情，请访问我们的代码仓库。

[ 🤖 GitHub | 📄 论文 | 🌐 网站 ]

🚀 快速开始

只需通过from_pretrained加载ACIP模型：

from transformers import AutoModel

model = AutoModel.from_pretrained("MerantixMomentum/acip_llama31_8b", trust_remote_code=True)

这将下载并创建一个完全参数化的ACIP模型，你可以将其修剪到任何你想要的压缩率。例如：

model.prune_model_by_score(size_ratio=0.4)

这将把model修剪到其原始参数数量的40%，即60%的压缩率。 ACIP的一个独特功能是，这个操作是可逆的，你可以根据需要多次重新运行model.prune_model_by_score，以在不同大小下评估你的模型。最后，你可以“确定”某个比率并运行：

model.compress()

这将丢弃可压缩线性层的所有修剪掩码值。现在模型实际上已经被压缩，你应该会观察到内存使用量显著减少（如果不重新加载ACIP模型，此步骤不可逆）。如果你愿意，你还可以运行：

model.quantize()

以节省更多内存（我们仅使用bitsandbytes测试了4位量化，但你也可以自定义此操作）。

🚀 就是这样！现在你可以像使用🤗 transformers中的任何其他因果语言模型一样，将压缩后的模型用于推理或微调。

⚠️ 重要提示

参数size_ratio的范围是从1.0到0.0，表示压缩后模型的大小。例如，0.4表示模型仅具有原始参数数量的40%，而1.0表示完全不压缩。或者，你也可以在prune_model_by_score中设置compression_rate，这相当于size_ratio = 1.0 - compression_rate。

📦 安装指南

要从我们的中心运行ACIP模型，你只需要最少的依赖项，即torch、transformers、peft，如果你想对模型进行量化，还可以选择安装bitsandbytes。有关可通过pip安装的依赖项及其确切版本，请参阅requirements.txt（较新的版本应该也可以正常工作）。

📄 许可证

本模型根据llama3.1许可证发布。

📚 详细文档

引用

在使用或引用此模型时，请引用我们的论文：

@article{mxm2025acip,
  title={Choose Your Model Size: Any Compression by a Single Gradient Descent}, 
  author={M. Genzel, P. Putzky, P. Zhao, S. Schulze, M. Mollenhauer, R. Seidel, S. Dietzel, T. Wollmann},
  year={2025},
  journal={Preprint arXiv:2502.01717}
}

模型信息

属性	详情
许可证	llama3.1
数据集	['allenai/c4']
支持语言	['en', 'de', 'fr', 'it', 'pt', 'hi', 'es', 'th']
评估指标	['perplexity', 'accuracy']
标签	['acip', 'pytorch']
基础模型	meta-llama/Llama-3.1-8B
任务类型	文本生成
库名称	transformers