acip_llama1_7b開源模型 - 可動態調整壓縮率的Llama-7B壓縮版模型

首頁

Acip Llama1 7b

由MerantixMomentum開發

ACIP項目提供的可壓縮版本Llama-7B模型，支持動態調整壓縮率

大型語言模型

Transformers

英語開源協議:其他 #動態壓縮 #可逆剪枝 #按需量化

下載量 83

發布時間 : 4/15/2025

模型概述

基於jeffwan/llama-7b-hf的可壓縮模型，通過ACIP技術實現參數量的靈活調整，可在不同壓縮率下保持性能

模型特點

動態壓縮

支持通過size_ratio參數即時調整模型壓縮率（0.0-1.0範圍）

可逆壓縮

壓縮操作可逆，可多次調整壓縮率評估性能

量化支持

支持通過bitsandbytes進行4位量化以進一步節省內存

模型能力

文本生成

模型壓縮

量化推理

使用案例

資源優化

邊緣設備部署

通過壓縮和量化在資源受限設備上部署大模型

內存使用顯著下降

多壓縮率評估

快速測試不同壓縮率下的模型性能

無需重複訓練即可獲得壓縮性能曲線

🚀 ACIP應用於jeffwan/llama-7b-hf

本模型倉庫是ACIP項目的一部分，提供了jeffwan/llama-7b-hf的可壓縮版本。如需更多詳情，請訪問我們的代碼倉庫。

[ 🤖 GitHub | 📄 論文 | 🌐 網站 ]

🚀 快速開始

只需通過from_pretrained加載ACIP模型：

from transformers import AutoModel

model = AutoModel.from_pretrained("MerantixMomentum/acip_llama1_7b", trust_remote_code=True)

這將下載並創建一個完全參數化的ACIP模型，該模型可以被剪枝到你想要的任何壓縮率。例如：

model.prune_model_by_score(size_ratio=0.4)

這將把model剪枝到其原始參數數量的40%，即60%的壓縮率。 ACIP的一個獨特特性是，這個操作是可逆的，也就是說，你可以根據需要多次重新運行model.prune_model_by_score，以評估不同大小的模型。最後，你可以“確定”一個特定的比例並運行：

model.compress()

這將丟棄可壓縮線性層的所有剪枝掩碼值。現在，模型實際上已經被壓縮，你應該會觀察到內存使用量顯著減少（如果不重新加載ACIP模型，此步驟不可逆）。如果你願意，你還可以運行：

model.quantize()

以節省更多內存（我們僅使用bitsandbytes測試了4位量化，但你也可以自定義此操作）。

🚀 就是這樣！現在你可以像使用🤗 transformers中的任何其他因果語言模型一樣，將壓縮後的模型用於推理或微調。

⚠️ 重要提示

參數size_ratio的範圍是從1.0到0.0，表示壓縮後的模型大小。例如，0.4意味著模型僅保留原始參數數量的40%，而1.0表示完全不壓縮。或者，你也可以在prune_model_by_score中設置compression_rate，這相當於size_ratio = 1.0 - compression_rate。

📦 安裝指南

要運行我們模型中心的ACIP模型，你只需要最少的依賴項，即torch、transformers、peft，如果你想對模型進行量化，還可以選擇安裝bitsandbytes。有關可通過pip安裝的依賴項及其確切版本，請參閱requirements.txt（較新的版本應該也可以正常工作）。

📄 許可證

許可證繼承自基礎模型jeffwan/llama-7b-hf。

📚 詳細文檔

引用信息

當使用或引用此模型時，請引用我們的論文：

@article{mxm2025acip,
  title={Choose Your Model Size: Any Compression by a Single Gradient Descent}, 
  author={M. Genzel, P. Putzky, P. Zhao, S. Schulze, M. Mollenhauer, R. Seidel, S. Dietzel, T. Wollmann},
  year={2025},
  journal={Preprint arXiv:2502.01717}
}

信息表格

屬性	詳情
模型類型	文本生成
訓練數據	allenai/c4
評估指標	困惑度、準確率
標籤	acip、pytorch
基礎模型	jeffwan/llama-7b-hf
庫名稱	transformers