allura-org_Q3-30b-A3b-Pentiment开源语言模型 - 免费部署，胜任多种文本生成任务

首页

Allura Org Q3 30b A3b Pentiment GGUF

由 bartowski 开发

Q3-30b-A3b-Pentiment 是一个基于 LLaMA 架构的大型语言模型，经过量化处理，适用于多种文本生成任务。

大型语言模型 #高精度量化 #多场景对话 #低资源适配

下载量 1,220

发布时间 : 5/22/2025

模型简介

该模型是一个 30B 参数的大型语言模型，经过量化处理以降低资源需求，支持角色扮演和对话式文本生成任务。

模型特点

高效量化

使用 llama.cpp 进行 imatrix 量化，支持多种量化级别，从 Q8_0 到 IQ2_XXS，满足不同硬件需求。

角色扮演支持

特别优化用于角色扮演和对话式文本生成任务。

硬件兼容性

支持在 LM Studio 或任何基于 llama.cpp 的项目中运行，兼容多种硬件平台。

模型能力

文本生成

角色扮演

对话生成

使用案例

娱乐

角色扮演游戏

用于生成角色扮演游戏中的对话和剧情

提供沉浸式的角色扮演体验

创意写作

故事生成

辅助作家进行创意写作和故事构思

生成连贯且有创意的故事情节

🚀 Allura-org Q3-30b-A3b-Pentiment的Llamacpp imatrix量化版本

本项目是对Allura-org的Q3-30b-A3b-Pentiment模型进行的量化处理，旨在提供不同量化类型的模型文件，以满足不同硬件和性能需求。通过使用llama.cpp工具，我们生成了多种量化格式的模型，方便用户在不同环境下使用。

🚀 快速开始

运行环境

你可以在以下环境中运行这些量化模型：

LM Studio
直接使用 llama.cpp 或任何基于llama.cpp的项目

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

✨ 主要特性

多种量化类型：提供了丰富的量化类型，如bf16、Q8_0、Q6_K_L等，满足不同的性能和质量需求。
在线重打包：部分量化类型支持在线重打包，可自动优化硬件性能。
易于下载：支持使用huggingface-cli下载特定的模型文件。

📦 安装指南

安装huggingface-cli

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载特定文件

你可以指定要下载的特定文件：

huggingface-cli download bartowski/allura-org_Q3-30b-A3b-Pentiment-GGUF --include "allura-org_Q3-30b-A3b-Pentiment-Q4_K_M.gguf" --local-dir ./

下载拆分文件

如果模型大于50GB，它会被拆分为多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/allura-org_Q3-30b-A3b-Pentiment-GGUF --include "allura-org_Q3-30b-A3b-Pentiment-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录，也可以将它们全部下载到当前目录。

💻 使用示例

基础用法

在LM Studio中，你可以直接加载量化模型文件进行使用。在使用llama.cpp时，按照其文档说明进行配置和运行。

高级用法

如果你想进一步优化性能，可以根据自己的硬件情况选择合适的量化类型。例如，对于ARM和AVX机器，可以考虑使用支持在线重打包的Q4_0量化类型。

📚 详细文档

量化信息

属性	详情
量化者	bartowski
任务类型	文本生成
标签	角色扮演、对话式
基础模型	allura-org/Q3-30b-A3b-Pentiment
基础模型关系	量化版本

下载文件列表

文件名	量化类型	文件大小	拆分情况	描述
Q3-30b-A3b-Pentiment-bf16.gguf	bf16	61.10GB	true	完整的BF16权重。
Q3-30b-A3b-Pentiment-Q8_0.gguf	Q8_0	32.48GB	false	极高质量，通常不需要，但为最大可用量化。
Q3-30b-A3b-Pentiment-Q6_K_L.gguf	Q6_K_L	25.24GB	false	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
Q3-30b-A3b-Pentiment-Q6_K.gguf	Q6_K	25.09GB	false	非常高质量，接近完美，推荐。
Q3-30b-A3b-Pentiment-Q5_K_L.gguf	Q5_K_L	21.92GB	false	嵌入和输出权重使用Q8_0。高质量，推荐。
Q3-30b-A3b-Pentiment-Q5_K_M.gguf	Q5_K_M	21.73GB	false	高质量，推荐。
Q3-30b-A3b-Pentiment-Q5_K_S.gguf	Q5_K_S	21.08GB	false	高质量，推荐。
Q3-30b-A3b-Pentiment-Q4_1.gguf	Q4_1	19.19GB	false	旧格式，性能与Q4_K_S相似，但在Apple硅芯片上的每瓦令牌数有所提高。
Q3-30b-A3b-Pentiment-Q4_K_L.gguf	Q4_K_L	18.79GB	false	嵌入和输出权重使用Q8_0。质量良好，推荐。
Q3-30b-A3b-Pentiment-Q4_K_M.gguf	Q4_K_M	18.56GB	false	质量良好，大多数用例的默认大小，推荐。
Q3-30b-A3b-Pentiment-Q4_K_S.gguf	Q4_K_S	17.46GB	false	质量稍低，但节省更多空间，推荐。
Q3-30b-A3b-Pentiment-Q4_0.gguf	Q4_0	17.38GB	false	旧格式，提供ARM和AVX CPU推理的在线重打包功能。
Q3-30b-A3b-Pentiment-IQ4_NL.gguf	IQ4_NL	17.31GB	false	类似于IQ4_XS，但稍大。提供ARM CPU推理的在线重打包功能。
Q3-30b-A3b-Pentiment-IQ4_XS.gguf	IQ4_XS	16.37GB	false	质量不错，比Q4_K_S小，性能相似，推荐。
Q3-30b-A3b-Pentiment-Q3_K_XL.gguf	Q3_K_XL	16.17GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
Q3-30b-A3b-Pentiment-Q3_K_L.gguf	Q3_K_L	15.90GB	false	质量较低但可用，适合低内存情况。
Q3-30b-A3b-Pentiment-Q3_K_M.gguf	Q3_K_M	14.71GB	false	低质量。
Q3-30b-A3b-Pentiment-IQ3_M.gguf	IQ3_M	13.51GB	false	中低质量，新方法，性能与Q3_K_M相当。
Q3-30b-A3b-Pentiment-Q3_K_S.gguf	Q3_K_S	13.29GB	false	低质量，不推荐。
Q3-30b-A3b-Pentiment-IQ3_XS.gguf	IQ3_XS	12.60GB	false	质量较低，新方法，性能不错，略优于Q3_K_S。
Q3-30b-A3b-Pentiment-IQ3_XXS.gguf	IQ3_XXS	11.85GB	false	质量较低，新方法，性能不错，与Q3量化相当。
Q3-30b-A3b-Pentiment-Q2_K_L.gguf	Q2_K_L	11.56GB	false	嵌入和输出权重使用Q8_0。质量非常低，但出人意料地可用。
Q3-30b-A3b-Pentiment-Q2_K.gguf	Q2_K	11.26GB	false	质量非常低，但出人意料地可用。
Q3-30b-A3b-Pentiment-IQ2_M.gguf	IQ2_M	10.17GB	false	质量相对较低，使用SOTA技术，出人意料地可用。
Q3-30b-A3b-Pentiment-IQ2_S.gguf	IQ2_S	9.29GB	false	质量低，使用SOTA技术，可用。
Q3-30b-A3b-Pentiment-IQ2_XS.gguf	IQ2_XS	9.08GB	false	质量低，使用SOTA技术，可用。
Q3-30b-A3b-Pentiment-IQ2_XXS.gguf	IQ2_XXS	8.18GB	false	质量非常低，使用SOTA技术，可用。