🚀 PrunaAI - 讓AI模型更經濟、更小、更快、更環保!
PrunaAI致力於讓AI模型變得更加經濟實惠、體積更小、運行速度更快且更加環保,為AI的發展提供高效解決方案。
- 如果你喜歡這個模型,就點個贊吧!
- 點擊此處 聯繫我們,告訴我們接下來要壓縮哪個模型。
- 點擊此處 申請輕鬆壓縮你自己的AI模型。
- 點擊此處 閱讀文檔以瞭解更多信息。
- 點擊此處 加入Pruna AI的Discord社區,分享反饋、建議或獲取幫助。
社區鏈接
✨ 主要特性
- 提供多種效率指標,包括內存磁盤佔用、推理內存、推理延遲、推理吞吐量、推理二氧化碳排放量和推理能耗。
- 支持使用llm - int8方法壓縮模型。
- 使用safetensors作為模型格式。
- 若壓縮方法需要,使用WikiText作為校準數據。
📦 安裝指南
你可以按照以下步驟運行壓縮後的模型:
0. 檢查原始倉庫Writer/palmyra - small的安裝要求,尤其要檢查Python、CUDA和Transformers的版本。
- 確保你已經安裝了與量化相關的包:
pip install transformers accelerate bitsandbytes>0.37.0
- 加載並運行模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("PrunaAI/Writer-palmyra-small-bnb-8bit-smashed",
trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Writer/palmyra-small")
input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]
outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])
📚 詳細文檔
結果
詳細的效率指標即將推出!
常見問題解答
- 壓縮是如何工作的? 模型使用llm - int8進行壓縮。
- 模型質量會發生怎樣的變化? 與基礎模型相比,模型輸出的質量可能會有所不同。
- 如何評估模型效率? 這些結果是在NVIDIA A100 - PCIE - 40GB上,按照
model/smash_config.json
中描述的配置獲得的,並且是在硬件預熱後得到的。將壓縮後的模型直接與原始基礎模型進行比較。效率結果在其他設置(如其他硬件、圖像大小、批量大小等)中可能會有所不同。我們建議在實際用例條件下直接運行,以確定壓縮後的模型是否對你有益。
- 模型格式是什麼? 我們使用safetensors。
- 使用了什麼校準數據? 如果壓縮方法需要,我們使用WikiText作為校準數據。
- Pruna Huggingface模型的命名約定是什麼? 如果壓縮後的模型的推理速度、推理內存或推理能耗低於原始基礎模型的90%,我們會在原始模型名稱後加上“turbo”、“tiny”或“green”。
- 如何壓縮我自己的模型? 你可以點擊此處 申請高級訪問權限,以獲取更多壓縮方法和針對特定用例的技術支持。
- 什麼是“首次”指標? 提到“首次”的結果是在模型首次運行後獲得的。由於CUDA開銷,首次運行可能比後續運行佔用更多內存或速度更慢。
- 什麼是“同步”和“異步”指標? “同步”指標是通過同步所有GPU進程並在所有進程執行完畢後停止測量獲得的。“異步”指標是在不同步所有GPU進程的情況下,在模型輸出可供CPU使用時停止測量獲得的。我們同時提供這兩種指標,因為根據用例的不同,這兩種指標都可能相關。我們建議在你的用例中直接測試效率提升情況。
🔧 技術細節
配置信息位於smash_config.json
中。
📄 許可證
壓縮後模型的許可證遵循原始模型的許可證。在使用此模型之前,請檢查原始模型Writer/palmyra - small的許可證,該模型提供了基礎模型。pruna - engine
的許可證可在Pypi 上查看。
還想壓縮其他模型?
- 點擊此處 聯繫我們,告訴我們接下來要壓縮哪個模型。
- 點擊此處 申請輕鬆壓縮你自己的AI模型。