🚀 RekaAI的reka-flash-3.1模型Llamacpp imatrix量化版本
本项目是对RekaAI的reka-flash-3.1模型进行的Llamacpp imatrix量化版本。使用量化技术可以在保持一定模型性能的前提下,减少模型的存储空间和计算资源需求,从而更适合在资源受限的设备上运行。
🚀 快速开始
本项目提供了RekaAI的reka-flash-3.1模型的量化版本,你可以根据自己的需求选择合适的量化文件进行下载和使用。以下是一些基本的使用步骤:
✨ 主要特性
- 多种量化类型:提供了多种不同的量化类型,如bf16、Q8_0、Q6_K_L等,满足不同的性能和质量需求。
- 在线重打包:部分量化文件支持在线重打包,可根据硬件情况自动优化性能。
- 详细的选择指南:提供了详细的文件选择指南,帮助用户根据自己的硬件资源选择合适的量化文件。
📦 安装指南
安装huggingface-cli
如果你想使用huggingface-cli来下载量化文件,首先需要确保你已经安装了它:
pip install -U "huggingface_hub[cli]"
下载单个文件
如果你只想下载单个量化文件,可以使用以下命令:
huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q4_K_M.gguf" --local-dir ./
下载拆分文件
如果模型文件大于50GB,它会被拆分成多个文件。你可以使用以下命令将它们全部下载到本地文件夹:
huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q8_0/*" --local-dir ./
💻 使用示例
提示格式
在使用模型时,需要使用以下提示格式:
human: {system_prompt} {prompt} <sep> assistant:
运行模型
你可以在LM Studio中运行量化文件,也可以直接使用llama.cpp或其他基于llama.cpp的项目来运行。
📚 详细文档
量化信息
下载文件列表
嵌入/输出权重
部分量化文件(如Q3_K_XL、Q4_K_L等)采用标准量化方法,将嵌入和输出权重量化为Q8_0,而非默认值。
ARM/AVX信息
- 在线重打包:现在支持“在线重打包”权重,详情见 此PR。如果使用Q4_0且硬件适合重打包权重,将自动进行。
- Q4_0_X_X文件:从llama.cpp构建 b4282 开始,无法运行Q4_0_X_X文件,需使用Q4_0。
- IQ4_NL:可使用IQ4_NL获得略高的质量,见 此PR,它也会为ARM重打包权重,但目前仅支持4_4。加载时间可能较慢,但总体速度会提高。
选择合适的文件
- 确定模型大小:首先确定可以运行的模型大小,需要考虑系统的RAM和/或VRAM。
- 追求速度:如果希望模型运行尽可能快,应选择文件大小比GPU总VRAM小1 - 2GB的量化文件。
- 追求质量:如果追求绝对最高质量,将系统RAM和GPU的VRAM相加,然后选择文件大小比该总和小1 - 2GB的量化文件。
- 选择I-quant或K-quant:如果不想过多考虑,选择K-quants(格式为'QX_K_X',如Q5_K_M);如果想深入了解,可以查看 llama.cpp特性矩阵。对于低于Q4的量化,且使用cuBLAS(Nvidia)或rocBLAS(AMD),可以考虑I-quants(格式为IQX_X,如IQ3_M),它们较新,相同大小下性能更好,但在CPU上运行比K-quant慢。
🔧 技术细节
量化方法
使用llama.cpp的特定版本进行量化,确保模型在不同硬件上的高效运行。
在线重打包
在线重打包技术可以根据硬件情况自动优化权重,提高模型的性能。
📄 许可证
本项目使用 Apache-2.0 许可证。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。
感谢ZeroWw启发对嵌入/输出进行实验。
感谢LM Studio赞助本项目。
如果你想支持我的工作,请访问我的ko-fi页面:https://ko-fi.com/bartowski