acip_llama31_8b開源模型 - 可動態調壓縮率且性能穩定的免費大模型

首頁

Acip Llama31 8b

由MerantixMomentum開發

ACIP項目提供的可壓縮版本Llama-3.1-8B模型，支持動態調整壓縮率並保持性能

大型語言模型

Transformers

英語#動態可壓縮 #多語言生成 #無損剪枝

下載量 24

發布時間 : 4/15/2025

模型概述

基於Llama-3.1-8B的可壓縮模型，通過ACIP技術實現參數量的靈活調整，支持無損壓縮和量化

模型特點

動態可壓縮性

支持通過size_ratio參數即時調整模型壓縮率（0-100%），且操作可逆

無損壓縮

壓縮過程保留原始模型性能，壓縮後仍可進行推理或微調

量化支持

兼容bitsandbytes的4比特量化方案，可進一步降低內存佔用

模型能力

多語言文本生成

模型壓縮

量化推理

使用案例

資源優化

邊緣設備部署

通過壓縮和量化在資源受限設備上部署大語言模型

內存佔用減少60%以上

模型研究

壓縮率影響分析

快速測試不同壓縮率下的模型表現

無需重複訓練即可獲得壓縮性能曲線

🚀 ACIP應用於meta - llama/Llama - 3.1 - 8B

本模型倉庫是ACIP項目的一部分，提供了meta-llama/Llama-3.1-8B的可壓縮版本。如需更多詳情，請訪問我們的代碼倉庫。

[ 🤖 GitHub | 📄 論文 | 🌐 網站 ]

🚀 快速開始

只需通過from_pretrained加載ACIP模型：

from transformers import AutoModel

model = AutoModel.from_pretrained("MerantixMomentum/acip_llama31_8b", trust_remote_code=True)

這將下載並創建一個完全參數化的ACIP模型，你可以將其修剪到任何你想要的壓縮率。例如：

model.prune_model_by_score(size_ratio=0.4)

這將把model修剪到其原始參數數量的40%，即60%的壓縮率。 ACIP的一個獨特功能是，這個操作是可逆的，你可以根據需要多次重新運行model.prune_model_by_score，以在不同大小下評估你的模型。最後，你可以“確定”某個比率並運行：

model.compress()

這將丟棄可壓縮線性層的所有修剪掩碼值。現在模型實際上已經被壓縮，你應該會觀察到內存使用量顯著減少（如果不重新加載ACIP模型，此步驟不可逆）。如果你願意，你還可以運行：

model.quantize()

以節省更多內存（我們僅使用bitsandbytes測試了4位量化，但你也可以自定義此操作）。

🚀 就是這樣！現在你可以像使用🤗 transformers中的任何其他因果語言模型一樣，將壓縮後的模型用於推理或微調。

⚠️ 重要提示

參數size_ratio的範圍是從1.0到0.0，表示壓縮後模型的大小。例如，0.4表示模型僅具有原始參數數量的40%，而1.0表示完全不壓縮。或者，你也可以在prune_model_by_score中設置compression_rate，這相當於size_ratio = 1.0 - compression_rate。

📦 安裝指南

要從我們的中心運行ACIP模型，你只需要最少的依賴項，即torch、transformers、peft，如果你想對模型進行量化，還可以選擇安裝bitsandbytes。有關可通過pip安裝的依賴項及其確切版本，請參閱requirements.txt（較新的版本應該也可以正常工作）。

📄 許可證

本模型根據llama3.1許可證發佈。

📚 詳細文檔

引用

在使用或引用此模型時，請引用我們的論文：

@article{mxm2025acip,
  title={Choose Your Model Size: Any Compression by a Single Gradient Descent}, 
  author={M. Genzel, P. Putzky, P. Zhao, S. Schulze, M. Mollenhauer, R. Seidel, S. Dietzel, T. Wollmann},
  year={2025},
  journal={Preprint arXiv:2502.01717}
}

模型信息

屬性	詳情
許可證	llama3.1
數據集	['allenai/c4']
支持語言	['en', 'de', 'fr', 'it', 'pt', 'hi', 'es', 'th']
評估指標	['perplexity', 'accuracy']
標籤	['acip', 'pytorch']
基礎模型	meta-llama/Llama-3.1-8B
任務類型	文本生成
庫名稱	transformers