模型简介
模型特点
模型能力
使用案例
🚀 Mistral-Small-3.2-24B-Instruct-2506的Llamacpp imatrix量化版本
本项目是对Mistral-Small-3.2-24B-Instruct-2506模型进行的Llamacpp imatrix量化处理,旨在提供不同量化类型的模型文件,以满足不同硬件和性能需求。用户可以根据自身设备的内存和性能选择合适的量化文件,并在LM Studio或基于llama.cpp的项目中运行。
🔍 项目信息
属性 | 详情 |
---|---|
量化者 | bartowski |
任务类型 | 图像文本到文本 |
支持语言 | 英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、韩语、俄语、中文、阿拉伯语、波斯语、印尼语、马来语、尼泊尔语、波兰语、罗马尼亚语、塞尔维亚语、瑞典语、土耳其语、乌克兰语、越南语、印地语、孟加拉语 |
基础模型 | mistralai/Mistral-Small-3.2-24B-Instruct-2506 |
基础模型关系 | 量化版本 |
许可证 | Apache-2.0 |
推理功能 | 否 |
⚠️ 重要提示
如果你想了解我们如何处理你的个人数据,请阅读我们的 隐私政策。
🚀 快速开始
运行方式
提示格式
<s>[SYSTEM_PROMPT]{system_prompt}[/SYSTEM_PROMPT][INST]{prompt}[/INST]
✨ 主要特性
- 多种量化类型:提供了丰富的量化类型,如bf16、Q8_0、Q6_K_L等,用户可根据需求选择不同的量化文件。
- 在线重打包:部分量化文件支持在线重打包,可自动优化硬件性能。
- 性能优化:部分量化文件通过将嵌入和输出权重量化为Q8_0,提高了模型的性能和质量。
📦 安装指南
安装huggingface-cli
pip install -U "huggingface_hub[cli]"
下载单个文件
huggingface-cli download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf" --local-dir ./
下载拆分文件
如果模型大于50GB,已拆分为多个文件,可使用以下命令下载到本地文件夹:
huggingface-cli download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q8_0/*" --local-dir ./
💻 使用示例
基础用法
在LM Studio中,选择下载的量化文件即可开始使用。
高级用法
使用llama.cpp直接运行模型,可根据需求调整参数,以获得更好的性能和效果。
📚 详细文档
下载文件列表
嵌入/输出权重
部分量化文件(如Q3_K_XL、Q4_K_L等)采用标准量化方法,将嵌入和输出权重量化为Q8_0,而非默认值。
ARM/AVX信息
以前,用户会下载Q4_0_4_4/4_8/8_8文件,这些文件的权重在内存中交错排列,以提高ARM和AVX机器的性能。现在,有了“在线重打包”功能,详情见 此PR。如果使用Q4_0且硬件适合重打包权重,系统将自动进行优化。
从llama.cpp构建 b4282 开始,将无法运行Q4_0_X_X文件,需使用Q4_0。此外,根据 此PR,可使用IQ4_NL获得更好的质量,它也会为ARM重打包权重,但目前仅支持4_4。加载时间可能会变慢,但总体速度会提高。
如何选择文件
点击查看详情
Artefact2提供了一份很棒的带有图表的文章,展示了各种性能表现,点击查看。
首先,确定你能运行的模型大小。这需要了解你拥有的RAM和/或VRAM容量。
- 追求极致速度:如果你希望模型运行得尽可能快,应将整个模型放入GPU的VRAM中。选择文件大小比GPU总VRAM小1 - 2GB的量化文件。
- 追求极致质量:如果你追求绝对的最高质量,将系统RAM和GPU的VRAM相加,然后选择文件大小比该总和小1 - 2GB的量化文件。
接下来,你需要决定是使用“I-quant”还是“K-quant”。
- 简单选择:如果你不想考虑太多,可以选择K-quant。这些文件的格式为“QX_K_X”,如Q5_K_M。
- 深入研究:如果你想深入了解,可以查看这个非常有用的功能图表:llama.cpp功能矩阵。
一般来说,如果你目标是低于Q4的量化,并且使用cuBLAS(Nvidia)或rocBLAS(AMD),应该考虑I-quant。这些文件的格式为IQX_X,如IQ3_M。它们是较新的格式,在相同大小下提供更好的性能。
I-quant也可以在CPU上使用,但速度会比相应的K-quant慢,因此你需要在速度和性能之间做出权衡。
🔧 技术细节
本项目使用 llama.cpp 发布版本 b5697 进行量化。所有量化文件均使用imatrix选项,并使用 此处 的数据集。
📄 许可证
本项目采用Apache-2.0许可证。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。 感谢ZeroWw提供关于嵌入/输出实验的灵感。 感谢LM Studio赞助我的工作。
如果你想支持我的工作,请访问我的ko-fi页面:https://ko-fi.com/bartowski



