Qwen1.5-MoE-A2.7B-GGUF开源模型 - 通义千问1.5版支持多量化格式

首页

Qwen1.5 MoE A2.7B GGUF

由 tensorblock 开发

通义千问1.5版本的混合专家(MoE)模型，参数规模为2.7B，提供多种量化版本的GGUF格式文件

大型语言模型英语开源协议:其他 #混合专家模型 #轻量级推理 #多量化选择

下载量 163

发布时间 : 11/11/2024

模型简介

这是一个基于Qwen1.5架构的混合专家模型，提供多种量化版本的GGUF格式文件，适用于本地推理场景。

模型特点

多种量化选项

提供从Q2_K到Q8_0共12种不同量化级别的模型文件，满足不同场景需求

高效推理

混合专家架构在保持模型性能的同时提高了推理效率

llama.cpp兼容

所有模型文件与llama.cpp兼容，便于本地部署和使用

模型能力

中文文本生成

对话系统

文本理解

使用案例

对话系统

智能客服

部署为在线客服系统，回答用户问题

内容创作

文本生成

辅助创作文章、故事等内容

🚀 通义千问/Qwen1.5-MoE-A2.7B - GGUF

本仓库包含 Qwen/Qwen1.5-MoE-A2.7B 的 GGUF 格式模型文件。这些文件由 TensorBlock 提供的机器进行量化，自提交 b4011 起，它们与 llama.cpp 兼容。

🚀 快速开始

此部分介绍了项目的核心内容，即提供 Qwen/Qwen1.5-MoE-A2.7B 的 GGUF 格式模型文件，以及这些文件的量化来源和兼容性。

✨ 主要特性

提供多种量化类型的模型文件，以满足不同的使用需求。
模型文件与 llama.cpp 兼容，方便用户进行使用。

📦 安装指南

命令行安装

首先，安装 Huggingface 客户端：

pip install -U "huggingface_hub[cli]"

然后，将单个模型文件下载到本地目录：

huggingface-cli download tensorblock/Qwen1.5-MoE-A2.7B-GGUF --include "Qwen1.5-MoE-A2.7B-Q2_K.gguf" --local-dir MY_LOCAL_DIR

如果你想按模式下载多个模型文件（例如，*Q4_K*gguf），可以尝试：

huggingface-cli download tensorblock/Qwen1.5-MoE-A2.7B-GGUF --local-dir MY_LOCAL_DIR --local-dir-use-symlinks False --include='*Q4_K*gguf'

💻 使用示例

提示模板

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📚 详细文档

模型文件规格

文件名	量化类型	文件大小	描述
Qwen1.5-MoE-A2.7B-Q2_K.gguf	Q2_K	5.486 GB	最小，但质量显著下降 - 不建议用于大多数场景
Qwen1.5-MoE-A2.7B-Q3_K_S.gguf	Q3_K_S	6.372 GB	非常小，但质量损失较大
Qwen1.5-MoE-A2.7B-Q3_K_M.gguf	Q3_K_M	6.927 GB	非常小，但质量损失较大
Qwen1.5-MoE-A2.7B-Q3_K_L.gguf	Q3_K_L	7.212 GB	小，但质量有较大损失
Qwen1.5-MoE-A2.7B-Q4_0.gguf	Q4_0	7.590 GB	旧版本；小，但质量损失非常大 - 建议使用 Q3_K_M
Qwen1.5-MoE-A2.7B-Q4_K_S.gguf	Q4_K_S	8.110 GB	小，但质量损失更大
Qwen1.5-MoE-A2.7B-Q4_K_M.gguf	Q4_K_M	8.844 GB	中等，质量平衡 - 推荐使用
Qwen1.5-MoE-A2.7B-Q5_0.gguf	Q5_0	9.220 GB	旧版本；中等，质量平衡 - 建议使用 Q4_K_M
Qwen1.5-MoE-A2.7B-Q5_K_S.gguf	Q5_K_S	9.462 GB	大，质量损失小 - 推荐使用
Qwen1.5-MoE-A2.7B-Q5_K_M.gguf	Q5_K_M	10.090 GB	大，质量损失非常小 - 推荐使用
Qwen1.5-MoE-A2.7B-Q6_K.gguf	Q6_K	11.889 GB	非常大，质量损失极低
Qwen1.5-MoE-A2.7B-Q8_0.gguf	Q8_0	14.180 GB	非常大，质量损失极低 - 不建议使用

🔧 技术细节

模型文件由 TensorBlock 提供的机器进行量化，确保了量化的准确性和高效性。并且自提交 b4011 起，与 llama.cpp 兼容，方便用户在 llama.cpp 环境中使用这些模型文件。

📄 许可证

本项目使用通义千问许可证。

我们的项目

项目名称	项目描述	项目链接
Forge	一个与 OpenAI 兼容的多提供商路由层。	🚀 立即尝试！🚀
Awesome MCP Servers	一个全面的模型上下文协议（MCP）服务器集合。	👀 查看我们的成果 👀
TensorBlock Studio	一个轻量级、开放且可扩展的多大语言模型交互工作室。	👀 查看我们的成果 👀