mosaicml-mpt-7b-storywriter開源故事寫作模型 - 免費助力高效故事創作推理

首頁

Mosaicml Mpt 7b Storywriter Bnb 4bit Smashed

由PrunaAI開發

PrunaAI壓縮的MPT-7B故事寫作模型，通過llm-int8技術實現高效推理

大型語言模型

Transformers

其他#4bit量化 #故事生成 #低內存消耗

下載量 27

發布時間 : 4/4/2024

模型概述

這是一個經過壓縮的MPT-7B大型語言模型，專門優化用於故事寫作任務，在保持生成質量的同時顯著降低資源消耗

模型特點

高效推理

通過4位量化技術顯著降低內存佔用和計算需求

環保計算

優化的能耗表現減少二氧化碳排放

快速響應

相比原始模型提供更低的推理延遲

即插即用

兼容Hugging Face生態系統，易於部署

模型能力

長文本故事生成

創意寫作輔助

上下文感知文本補全

使用案例

內容創作

小說寫作輔助

幫助作家生成創意段落或克服寫作障礙

可生成連貫的長篇故事內容

互動故事應用

為遊戲或互動應用提供動態故事生成

低延遲響應提升用戶體驗

教育

創意寫作教學

作為學生創意寫作的啟發工具

在資源受限環境中也可運行

🚀 Pruna AI：讓AI模型更廉價、更小、更快、更環保！

Pruna AI致力於解決AI模型成本高、體積大、速度慢和能耗高的問題，通過先進的壓縮技術，使AI模型在保持性能的同時，實現成本降低、體積縮小、速度提升和能耗減少。

社區鏈接

互動與反饋

如果你喜歡這個模型，點個贊吧！
點擊此處聯繫我們，告訴我們接下來要壓縮哪個模型。
點擊此處請求訪問權限，輕鬆壓縮你自己的AI模型。
點擊此處閱讀文檔以瞭解更多信息。
點擊此處加入Pruna AI的Discord社區，分享反饋/建議或獲取幫助。

📊 結果展示

image info

常見問題解答

壓縮是如何工作的？ 模型使用llm - int8進行壓縮。
模型質量會發生怎樣的變化？ 與基礎模型相比，模型輸出的質量可能會有所不同。
如何評估模型效率？ 這些結果是在NVIDIA A100 - PCIE - 40GB上獲得的，配置在model/smash_config.json中描述，並且是在硬件預熱後獲得的。壓縮後的模型直接與原始基礎模型進行比較。效率結果在其他設置（如其他硬件、圖像大小、批量大小等）中可能會有所不同。我們建議在實際用例條件下直接運行，以確定壓縮後的模型是否對你有益。
模型格式是什麼？ 我們使用safetensors。
使用了什麼校準數據？ 如果壓縮方法需要，我們使用WikiText作為校準數據。
Pruna Huggingface模型的命名約定是什麼？ 如果壓縮後的模型在推理速度、推理內存或推理能耗方面低於原始基礎模型的90%，我們會在原始模型名稱後面加上"turbo"、"tiny"或"green"。
如何壓縮我自己的模型？ 點擊此處請求高級訪問權限，以使用更多壓縮方法並獲得針對你特定用例的技術支持。
什麼是“首次”指標？ 提及“首次”的結果是在模型首次運行後獲得的。由於cuda開銷，首次運行可能比後續運行佔用更多內存或更慢。
什麼是“同步”和“異步”指標？ “同步”指標是在同步所有GPU進程並在所有進程執行完畢後停止測量得到的。“異步”指標是在不同步所有GPU進程並在模型輸出可供CPU使用時停止測量得到的。我們同時提供這兩種指標，因為根據不同的用例，這兩種指標都可能相關。我們建議在你的用例中直接測試效率提升情況。

📦 安裝指南

你可以按照以下步驟運行壓縮後的模型：

步驟0：檢查依賴

確保已安裝原始倉庫mosaicml/mpt - 7b - storywriter的依賴項，尤其要檢查Python、CUDA和transformers的版本。

步驟1：安裝量化相關包

pip install transformers accelerate bitsandbytes>0.37.0

步驟2：加載並運行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/mosaicml-mpt-7b-storywriter-bnb-4bit-smashed",
                                             trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("mosaicml/mpt-7b-storywriter")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])