mosaicml-mpt-7b-chat-bnb-4bit-smashed開源模型 - 降低內存能耗，高效處理對話

首頁

Mosaicml Mpt 7b Chat Bnb 4bit Smashed

由PrunaAI開發

PrunaAI提供的壓縮版MPT-7B-Chat模型，通過llm-int8技術優化，顯著降低內存佔用和能耗。

大型語言模型

Transformers

其他#4位量化 #低內存推理 #高效能聊天

下載量 30

發布時間 : 4/2/2024

模型概述

該模型是mosaicml/mpt-7b-chat的壓縮版本，通過量化技術減少模型大小和推理資源需求，同時保持相對較好的輸出質量。

模型特點

高效壓縮

使用llm-int8技術顯著減少模型大小和內存佔用

環保節能

降低推理過程中的能耗和二氧化碳排放

快速推理

優化後的模型提供更快的推理速度

模型能力

文本生成

對話系統

內容創作

使用案例

對話系統

智能聊天機器人

構建資源高效的對話AI應用

在保持對話質量的同時減少資源消耗

內容生成

自動化寫作助手

輔助內容創作和文本生成

高效生成各類文本內容

🚀 PrunaAI - 讓AI模型更經濟、更小、更快、更環保！

PrunaAI致力於讓AI模型在成本、體積、速度和環保性上都得到顯著提升，為用戶提供更高效的AI模型使用體驗。

如果你喜歡這個模型，就點個贊吧！
點擊此處聯繫我們，告訴我們接下來要壓縮哪個模型。
點擊此處請求訪問權限，輕鬆壓縮你自己的AI模型。
點擊此處閱讀文檔以瞭解更多信息。
點擊此處加入Pruna AI的Discord社區，分享反饋/建議或獲取幫助。

社區鏈接

🚀 快速開始

結果展示

image info

常見問題解答

壓縮是如何工作的？ 模型使用llm - int8進行壓縮。
模型質量會有怎樣的變化？ 與基礎模型相比，模型輸出的質量可能會有所不同。
如何評估模型效率？ 這些結果是在NVIDIA A100 - PCIE - 40GB上，按照model/smash_config.json中描述的配置獲得的，並且是在硬件預熱後得到的。壓縮後的模型直接與原始基礎模型進行比較。效率結果在其他設置（如其他硬件、圖像大小、批量大小等）中可能會有所不同。我們建議在實際用例條件下直接運行，以確定壓縮後的模型是否對你有益。
模型格式是什麼？ 我們使用safetensors。
使用了什麼校準數據？ 如果壓縮方法需要，我們使用WikiText作為校準數據。
Pruna Huggingface模型的命名約定是什麼？ 如果壓縮後的模型的推理速度、推理內存或推理能耗低於原始基礎模型的90%，我們會在原始模型名稱後加上“turbo”、“tiny”或“green”。
如何壓縮我自己的模型？ 你可以點擊此處請求高級訪問權限，以獲得更多壓縮方法和針對你特定用例的技術支持。
什麼是“首次”指標？ 提到“首次”的結果是在模型首次運行後獲得的。由於cuda開銷，首次運行可能比後續運行佔用更多內存或更慢。
什麼是“同步”和“異步”指標？ “同步”指標是通過同步所有GPU進程並在所有進程執行完畢後停止測量獲得的。“異步”指標是在不同步所有GPU進程的情況下獲得的，當模型輸出可供CPU使用時停止測量。我們同時提供這兩種指標，因為根據用例的不同，這兩種指標都可能相關。我們建議在你的用例中直接測試效率提升情況。

📦 安裝指南

你可以按照以下步驟運行壓縮後的模型： 0. 檢查原始倉庫mosaicml/mpt - 7b - chat的要求是否已安裝。特別是要檢查python、cuda和transformers的版本。

確保你已經安裝了與量化相關的包。

pip install transformers accelerate bitsandbytes>0.37.0

加載並運行模型。

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/mosaicml-mpt-7b-chat-bnb-4bit-smashed",
                                             trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("mosaicml/mpt-7b-chat")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])