Google Gemma 2b AWQ 4位壓縮開源模型 - 提升推理效率、降低資源消耗

首頁

Google Gemma 2b AWQ 4bit Smashed

由PrunaAI開發

基於google/gemma-2b模型通過AWQ技術壓縮的4位量化版本，旨在提升推理效率並降低資源消耗。

大型語言模型

Transformers

#4bit量化推理 #低內存消耗 #高效能AI

下載量 33

發布時間 : 4/29/2024

模型概述

該模型是google/gemma-2b的壓縮版本，採用AWQ量化技術，在保持模型性能的同時顯著減少內存佔用和計算資源需求。

模型特點

高效壓縮

採用AWQ技術實現4位量化，顯著降低模型大小和內存需求。

資源優化

相比原始模型，在推理速度、內存佔用和能耗方面均有顯著提升。

環境友好

降低計算能耗，減少二氧化碳排放，更加環保。

模型能力

文本生成

問答系統

內容創作

使用案例

內容生成

自動問答

用於構建高效的問答系統，快速響應用戶查詢。

在保持回答質量的同時顯著降低資源消耗。

文本創作

輔助內容創作者生成文章草稿或創意文本。

高效生成連貫文本，減少等待時間。

效率工具

邊緣設備部署

適合在資源有限的設備上部署AI功能。

降低硬件要求，使更多設備能夠運行AI模型。

🚀 Pruna AI：讓AI模型更廉價、更小、更快、更環保！

Pruna AI致力於壓縮AI模型，讓模型在成本、體積、速度和環保性上都有顯著提升，為用戶帶來更高效的使用體驗。

如果你喜歡這個模型，就點個贊吧！
點擊此處聯繫我們，告訴我們接下來要壓縮哪個模型。
點擊此處申請訪問權限，輕鬆壓縮你自己的AI模型。
點擊此處閱讀文檔以瞭解更多信息。
點擊此處加入Pruna AI的Discord社區，分享反饋、建議或獲取幫助。

📊 結果展示

image info

常見問題解答

壓縮是如何工作的？ 模型使用awq進行壓縮。
模型質量會發生怎樣的變化？ 與基礎模型相比，模型輸出的質量可能會有所不同。
如何評估模型效率？ 這些結果是在NVIDIA A100 - PCIE - 40GB上獲得的，配置信息在model/smash_config.json中描述，並且是在硬件預熱後獲得的。壓縮後的模型直接與原始基礎模型進行比較。在其他設置（如其他硬件、圖像大小、批量大小等）下，效率結果可能會有所不同。我們建議在實際使用條件下直接運行，以確定壓縮後的模型是否對你有幫助。
模型格式是什麼？ 我們使用safetensors。
使用了哪些校準數據？ 如果壓縮方法需要，我們使用WikiText作為校準數據。
Pruna Huggingface模型的命名規則是什麼？ 如果壓縮後的模型在推理速度、推理內存或推理能耗方面低於原始基礎模型的90%，我們會在原始模型名稱後加上“turbo”、“tiny”或“green”。
如何壓縮我自己的模型？ 你可以點擊此處申請高級訪問權限，以獲取更多壓縮方法和針對特定用例的技術支持。
什麼是“首次”指標？ 提到“首次”的結果是在模型首次運行後獲得的。由於cuda開銷，首次運行可能比後續運行佔用更多內存或更慢。
什麼是“同步”和“異步”指標？ “同步”指標是通過同步所有GPU進程並在所有進程執行完畢後停止測量獲得的。“異步”指標是在不同步所有GPU進程的情況下獲得的，並在模型輸出可供CPU使用時停止。由於這兩種指標在不同用例中都可能相關，我們同時提供這兩種指標。我們建議在你的用例中直接測試效率提升情況。

📦 安裝指南

你可以按照以下步驟運行壓縮後的模型：

檢查是否已安裝原始倉庫google/gemma - 2b的依賴項。特別是要檢查python、cuda和transformers的版本。
確保你已經安裝了與量化相關的包。
```
pip install autoawq
```

加載並運行模型。

from transformers import AutoModelForCausalLM, AutoTokenizer
from awq import AutoAWQForCausalLM

model = AutoAWQForCausalLM.from_quantized("PrunaAI/google-gemma-2b-AWQ-4bit-smashed", trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])