acip_qwen25_7b開源模型 - 免費動態調整壓縮率且保持性能

首頁

Acip Qwen25 7b

由MerantixMomentum開發

ACIP項目提供的Qwen2.5-7B可壓縮版本，支持動態調整壓縮率並保持模型性能

大型語言模型

Transformers

英語開源協議:Apache-2.0 #動態可壓縮 #多語言生成 #無損剪枝

下載量 80

發布時間 : 4/15/2025

模型概述

基於Qwen2.5-7B的可壓縮語言模型，採用ACIP技術實現參數按需壓縮，支持多語言文本生成任務

模型特點

動態可調壓縮

支持通過size_ratio參數即時調整壓縮比例（0-100%），無需重新加載模型

無損壓縮恢復

壓縮操作可逆，可反覆評估不同壓縮率下的表現，直到確定最終壓縮方案

量化兼容

支持與bitsandbytes等量化工具結合使用，進一步減少內存佔用

模型能力

多語言文本生成

模型壓縮

動態參數調整

量化支持

使用案例

資源優化

邊緣設備部署

通過壓縮和量化在資源受限設備上部署大語言模型

可減少60%以上內存佔用

模型研究

壓縮率影響分析

快速測試不同壓縮率對模型性能的影響

支持即時性能對比

🚀 ACIP應用於Qwen/Qwen2.5 - 7B

本模型倉庫是ACIP項目的一部分，提供了[Qwen/Qwen2.5 - 7B](https://huggingface.co/Qwen/Qwen2.5 - 7B)的可壓縮版本。如需更多詳情，請訪問我們的[代碼倉庫](https://github.com/merantix - momentum/acip)。

[ 🤖 GitHub | 📄 Paper | 🌐 Website ]

🚀 快速開始

只需通過from_pretrained加載ACIP模型：

from transformers import AutoModel

model = AutoModel.from_pretrained("MerantixMomentum/acip_qwen25_7b", trust_remote_code=True)

這將下載並創建一個完全參數化的ACIP模型，該模型可以被剪枝到你期望的任何壓縮率。例如：

model.prune_model_by_score(size_ratio=0.4)

這將把model剪枝到其原始參數數量的40%，即60%的壓縮率。 ACIP的一個獨特特性是，這個操作是可逆的，也就是說，你可以根據需要多次運行model.prune_model_by_score，以評估不同大小的模型。最後，你可以執行：

model.compress()

這將丟棄可壓縮線性層的所有剪枝掩碼值。現在，模型實際上已經被壓縮，你應該會觀察到內存使用量顯著減少（如果不重新加載ACIP模型，此步驟不可逆）。如果你願意，你還可以運行：

model.quantize()

以節省更多內存（我們僅使用bitsandbytes測試了4位量化，但你也可以自定義此操作）。

🚀 就是這樣！現在你可以像使用🤗 transformers中的任何其他因果語言模型一樣，將壓縮後的模型用於推理或微調。

⚠️ 重要提示

參數size_ratio的範圍是從1.0到0.0，表示壓縮後模型的大小。例如，0.4意味著模型僅保留原始參數數量的40%，而1.0表示完全不壓縮。或者，你也可以在prune_model_by_score中設置compression_rate，這等同於size_ratio = 1.0 - compression_rate。

📦 安裝指南

要從我們的模型中心運行ACIP模型，你只需要最少的依賴項，即torch、transformers、peft，如果你想對模型進行量化，還可以選擇安裝bitsandbytes。有關可通過pip安裝的依賴項及其確切版本，請參閱requirements.txt（較新的版本應該也可以正常工作）。

📄 許可證

本模型根據Apache - 2.0許可證發佈。

📚 詳細文檔

當使用或引用此模型時，請引用我們的論文：

@article{mxm2025acip,
  title={Choose Your Model Size: Any Compression by a Single Gradient Descent}, 
  author={M. Genzel, P. Putzky, P. Zhao, S. Schulze, M. Mollenhauer, R. Seidel, S. Dietzel, T. Wollmann},
  year={2025},
  journal={Preprint arXiv:2502.01717}
}

屬性	詳情
數據集	['allenai/c4']
語言	['中文', '英文', '法文', '西班牙文', '葡萄牙文', '德文', '意大利文', '俄文', '日文', '韓文', '越南文', '泰文', '阿拉伯文']
評估指標	['困惑度', '準確率']
標籤	['acip', 'pytorch']
基礎模型	Qwen/Qwen2.5 - 7B
任務類型	文本生成
庫名稱	transformers
許可證	apache - 2.0