Writer-palmyra-small-bnb-8bit-smashed開源語言模型 - 低內存低能耗文本處理神器

首頁

Writer Palmyra Small Bnb 8bit Smashed

由PrunaAI開發

PrunaAI優化的8位量化版Palmyra小型語言模型，顯著降低內存佔用和能耗

大型語言模型

Transformers

#8bit量化壓縮 #低內存消耗 #高效推理

下載量 31

發布時間 : 4/7/2024

模型概述

基於Writer/palmyra-small模型進行8位量化壓縮的版本，通過llm-int8技術實現高效推理，適用於需要經濟高效運行語言模型的場景

模型特點

高效壓縮

採用llm-int8技術實現8位量化，顯著降低模型內存佔用

經濟推理

優化後的模型減少計算資源需求，降低運行成本

環保設計

降低能耗和二氧化碳排放，符合綠色AI理念

即用型部署

提供safetensors格式模型文件，便於快速集成

模型能力

文本生成

問答系統

內容創作

使用案例

內容生成

自動問答

用於構建知識問答系統

高效生成準確回答

創意寫作

輔助內容創作者生成文本素材

快速產生連貫文本

效率工具

資源受限環境部署

在邊緣設備或資源有限的服務器上運行

降低硬件要求同時保持良好性能

🚀 PrunaAI - 讓AI模型更經濟、更小、更快、更環保！

PrunaAI致力於讓AI模型變得更加經濟實惠、體積更小、運行速度更快且更加環保，為AI的發展提供高效解決方案。

如果你喜歡這個模型，就點個贊吧！
點擊此處聯繫我們，告訴我們接下來要壓縮哪個模型。
點擊此處申請輕鬆壓縮你自己的AI模型。
點擊此處閱讀文檔以瞭解更多信息。
點擊此處加入Pruna AI的Discord社區，分享反饋、建議或獲取幫助。

社區鏈接

✨ 主要特性

提供多種效率指標，包括內存磁盤佔用、推理內存、推理延遲、推理吞吐量、推理二氧化碳排放量和推理能耗。
支持使用llm - int8方法壓縮模型。
使用safetensors作為模型格式。
若壓縮方法需要，使用WikiText作為校準數據。

📦 安裝指南

你可以按照以下步驟運行壓縮後的模型： 0. 檢查原始倉庫Writer/palmyra - small的安裝要求，尤其要檢查Python、CUDA和Transformers的版本。

確保你已經安裝了與量化相關的包：

pip install transformers accelerate bitsandbytes>0.37.0

加載並運行模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/Writer-palmyra-small-bnb-8bit-smashed",
                                             trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Writer/palmyra-small")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])

📚 詳細文檔

結果

詳細的效率指標即將推出！

常見問題解答

壓縮是如何工作的？ 模型使用llm - int8進行壓縮。
模型質量會發生怎樣的變化？ 與基礎模型相比，模型輸出的質量可能會有所不同。
如何評估模型效率？ 這些結果是在NVIDIA A100 - PCIE - 40GB上，按照model/smash_config.json中描述的配置獲得的，並且是在硬件預熱後得到的。將壓縮後的模型直接與原始基礎模型進行比較。效率結果在其他設置（如其他硬件、圖像大小、批量大小等）中可能會有所不同。我們建議在實際用例條件下直接運行，以確定壓縮後的模型是否對你有益。
模型格式是什麼？ 我們使用safetensors。
使用了什麼校準數據？ 如果壓縮方法需要，我們使用WikiText作為校準數據。
Pruna Huggingface模型的命名約定是什麼？ 如果壓縮後的模型的推理速度、推理內存或推理能耗低於原始基礎模型的90%，我們會在原始模型名稱後加上“turbo”、“tiny”或“green”。
如何壓縮我自己的模型？ 你可以點擊此處申請高級訪問權限，以獲取更多壓縮方法和針對特定用例的技術支持。
什麼是“首次”指標？ 提到“首次”的結果是在模型首次運行後獲得的。由於CUDA開銷，首次運行可能比後續運行佔用更多內存或速度更慢。
什麼是“同步”和“異步”指標？ “同步”指標是通過同步所有GPU進程並在所有進程執行完畢後停止測量獲得的。“異步”指標是在不同步所有GPU進程的情況下，在模型輸出可供CPU使用時停止測量獲得的。我們同時提供這兩種指標，因為根據用例的不同，這兩種指標都可能相關。我們建議在你的用例中直接測試效率提升情況。