Google Gemma 2b AWQ 4位压缩开源模型 - 提升推理效率、降低资源消耗

首页

Google Gemma 2b AWQ 4bit Smashed

由 PrunaAI 开发

基于google/gemma-2b模型通过AWQ技术压缩的4位量化版本，旨在提升推理效率并降低资源消耗。

大型语言模型

Transformers

#4bit量化推理 #低内存消耗 #高效能AI

下载量 33

发布时间 : 4/29/2024

模型简介

该模型是google/gemma-2b的压缩版本，采用AWQ量化技术，在保持模型性能的同时显著减少内存占用和计算资源需求。

模型特点

高效压缩

采用AWQ技术实现4位量化，显著降低模型大小和内存需求。

资源优化

相比原始模型，在推理速度、内存占用和能耗方面均有显著提升。

环境友好

降低计算能耗，减少二氧化碳排放，更加环保。

模型能力

文本生成

问答系统

内容创作

使用案例

内容生成

自动问答

用于构建高效的问答系统，快速响应用户查询。

在保持回答质量的同时显著降低资源消耗。

文本创作

辅助内容创作者生成文章草稿或创意文本。

高效生成连贯文本，减少等待时间。

效率工具

边缘设备部署

适合在资源有限的设备上部署AI功能。

降低硬件要求，使更多设备能够运行AI模型。

🚀 Pruna AI：让AI模型更廉价、更小、更快、更环保！

Pruna AI致力于压缩AI模型，让模型在成本、体积、速度和环保性上都有显著提升，为用户带来更高效的使用体验。

如果你喜欢这个模型，就点个赞吧！
点击此处联系我们，告诉我们接下来要压缩哪个模型。
点击此处申请访问权限，轻松压缩你自己的AI模型。
点击此处阅读文档以了解更多信息。
点击此处加入Pruna AI的Discord社区，分享反馈、建议或获取帮助。

📊 结果展示

image info

常见问题解答

压缩是如何工作的？ 模型使用awq进行压缩。
模型质量会发生怎样的变化？ 与基础模型相比，模型输出的质量可能会有所不同。
如何评估模型效率？ 这些结果是在NVIDIA A100 - PCIE - 40GB上获得的，配置信息在model/smash_config.json中描述，并且是在硬件预热后获得的。压缩后的模型直接与原始基础模型进行比较。在其他设置（如其他硬件、图像大小、批量大小等）下，效率结果可能会有所不同。我们建议在实际使用条件下直接运行，以确定压缩后的模型是否对你有帮助。
模型格式是什么？ 我们使用safetensors。
使用了哪些校准数据？ 如果压缩方法需要，我们使用WikiText作为校准数据。
Pruna Huggingface模型的命名规则是什么？ 如果压缩后的模型在推理速度、推理内存或推理能耗方面低于原始基础模型的90%，我们会在原始模型名称后加上“turbo”、“tiny”或“green”。
如何压缩我自己的模型？ 你可以点击此处申请高级访问权限，以获取更多压缩方法和针对特定用例的技术支持。
什么是“首次”指标？ 提到“首次”的结果是在模型首次运行后获得的。由于cuda开销，首次运行可能比后续运行占用更多内存或更慢。
什么是“同步”和“异步”指标？ “同步”指标是通过同步所有GPU进程并在所有进程执行完毕后停止测量获得的。“异步”指标是在不同步所有GPU进程的情况下获得的，并在模型输出可供CPU使用时停止。由于这两种指标在不同用例中都可能相关，我们同时提供这两种指标。我们建议在你的用例中直接测试效率提升情况。

📦 安装指南

你可以按照以下步骤运行压缩后的模型：

检查是否已安装原始仓库google/gemma - 2b的依赖项。特别是要检查python、cuda和transformers的版本。
确保你已经安装了与量化相关的包。
```
pip install autoawq
```

加载并运行模型。

from transformers import AutoModelForCausalLM, AutoTokenizer
from awq import AutoAWQForCausalLM

model = AutoAWQForCausalLM.from_quantized("PrunaAI/google-gemma-2b-AWQ-4bit-smashed", trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])