mosaicml-mpt-7b-storywriter开源故事写作模型 - 免费助力高效故事创作推理

首页

Mosaicml Mpt 7b Storywriter Bnb 4bit Smashed

由 PrunaAI 开发

PrunaAI压缩的MPT-7B故事写作模型，通过llm-int8技术实现高效推理

大型语言模型

Transformers

其他#4bit量化 #故事生成 #低内存消耗

下载量 27

发布时间 : 4/4/2024

模型简介

这是一个经过压缩的MPT-7B大型语言模型，专门优化用于故事写作任务，在保持生成质量的同时显著降低资源消耗

模型特点

高效推理

通过4位量化技术显著降低内存占用和计算需求

环保计算

优化的能耗表现减少二氧化碳排放

快速响应

相比原始模型提供更低的推理延迟

即插即用

兼容Hugging Face生态系统，易于部署

模型能力

长文本故事生成

创意写作辅助

上下文感知文本补全

使用案例

内容创作

小说写作辅助

帮助作家生成创意段落或克服写作障碍

可生成连贯的长篇故事内容

互动故事应用

为游戏或互动应用提供动态故事生成

低延迟响应提升用户体验

教育

创意写作教学

作为学生创意写作的启发工具

在资源受限环境中也可运行

🚀 Pruna AI：让AI模型更廉价、更小、更快、更环保！

Pruna AI致力于解决AI模型成本高、体积大、速度慢和能耗高的问题，通过先进的压缩技术，使AI模型在保持性能的同时，实现成本降低、体积缩小、速度提升和能耗减少。

社区链接

互动与反馈

如果你喜欢这个模型，点个赞吧！
点击此处联系我们，告诉我们接下来要压缩哪个模型。
点击此处请求访问权限，轻松压缩你自己的AI模型。
点击此处阅读文档以了解更多信息。
点击此处加入Pruna AI的Discord社区，分享反馈/建议或获取帮助。

📊 结果展示

image info

常见问题解答

压缩是如何工作的？ 模型使用llm - int8进行压缩。
模型质量会发生怎样的变化？ 与基础模型相比，模型输出的质量可能会有所不同。
如何评估模型效率？ 这些结果是在NVIDIA A100 - PCIE - 40GB上获得的，配置在model/smash_config.json中描述，并且是在硬件预热后获得的。压缩后的模型直接与原始基础模型进行比较。效率结果在其他设置（如其他硬件、图像大小、批量大小等）中可能会有所不同。我们建议在实际用例条件下直接运行，以确定压缩后的模型是否对你有益。
模型格式是什么？ 我们使用safetensors。
使用了什么校准数据？ 如果压缩方法需要，我们使用WikiText作为校准数据。
Pruna Huggingface模型的命名约定是什么？ 如果压缩后的模型在推理速度、推理内存或推理能耗方面低于原始基础模型的90%，我们会在原始模型名称后面加上"turbo"、"tiny"或"green"。
如何压缩我自己的模型？ 点击此处请求高级访问权限，以使用更多压缩方法并获得针对你特定用例的技术支持。
什么是“首次”指标？ 提及“首次”的结果是在模型首次运行后获得的。由于cuda开销，首次运行可能比后续运行占用更多内存或更慢。
什么是“同步”和“异步”指标？ “同步”指标是在同步所有GPU进程并在所有进程执行完毕后停止测量得到的。“异步”指标是在不同步所有GPU进程并在模型输出可供CPU使用时停止测量得到的。我们同时提供这两种指标，因为根据不同的用例，这两种指标都可能相关。我们建议在你的用例中直接测试效率提升情况。

📦 安装指南

你可以按照以下步骤运行压缩后的模型：

步骤0：检查依赖

确保已安装原始仓库mosaicml/mpt - 7b - storywriter的依赖项，尤其要检查Python、CUDA和transformers的版本。

步骤1：安装量化相关包

pip install transformers accelerate bitsandbytes>0.37.0

步骤2：加载并运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/mosaicml-mpt-7b-storywriter-bnb-4bit-smashed",
                                             trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("mosaicml/mpt-7b-storywriter")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])