RekaAI_reka-flash-3.1-GGUF开源模型 - 节省资源适合受限设备运行

首页

Rekaai Reka Flash 3.1 GGUF

由 bartowski 开发

这是RekaAI的reka-flash-3.1模型的Llamacpp imatrix量化版本，通过量化技术减少模型存储空间和计算资源需求，适合资源受限的设备运行。

大型语言模型开源协议:Apache-2.0 #高效量化 #多硬件适配 #低资源部署

下载量 1,449

发布时间 : 7/10/2025

模型简介

该项目提供了RekaAI reka-flash-3.1模型的多种量化版本，旨在在保持模型性能的同时，降低资源消耗，便于在各类硬件上部署和使用。

模型特点

多种量化类型

提供多种量化选项（如bf16、Q8_0、Q6_K_L等），满足不同性能和质量的平衡需求。

在线重打包

支持在线重打包技术，可根据硬件情况自动优化权重，提升模型运行效率。

详细选择指南

提供详细的量化文件选择指南，帮助用户根据硬件资源选择最适合的量化版本。

模型能力

文本生成

多语言支持

高效推理

使用案例

资源受限设备部署

边缘设备运行

在存储和计算资源有限的边缘设备上高效运行大型语言模型。

显著降低资源消耗，保持较高模型性能。

研究与开发

模型量化研究

用于研究和比较不同量化技术对模型性能的影响。

提供多种量化版本便于对比分析。

🚀 RekaAI的reka-flash-3.1模型Llamacpp imatrix量化版本

本项目是对RekaAI的reka-flash-3.1模型进行的Llamacpp imatrix量化版本。使用量化技术可以在保持一定模型性能的前提下，减少模型的存储空间和计算资源需求，从而更适合在资源受限的设备上运行。

🚀 快速开始

本项目提供了RekaAI的reka-flash-3.1模型的量化版本，你可以根据自己的需求选择合适的量化文件进行下载和使用。以下是一些基本的使用步骤：

下载量化文件：从下面的表格中选择合适的量化文件进行下载。
运行模型：可以在LM Studio中运行，也可以直接使用llama.cpp或其他基于llama.cpp的项目来运行。

✨ 主要特性

多种量化类型：提供了多种不同的量化类型，如bf16、Q8_0、Q6_K_L等，满足不同的性能和质量需求。
在线重打包：部分量化文件支持在线重打包，可根据硬件情况自动优化性能。
详细的选择指南：提供了详细的文件选择指南，帮助用户根据自己的硬件资源选择合适的量化文件。

📦 安装指南

安装huggingface-cli

如果你想使用huggingface-cli来下载量化文件，首先需要确保你已经安装了它：

pip install -U "huggingface_hub[cli]"

下载单个文件

如果你只想下载单个量化文件，可以使用以下命令：

huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q4_K_M.gguf" --local-dir ./

下载拆分文件

如果模型文件大于50GB，它会被拆分成多个文件。你可以使用以下命令将它们全部下载到本地文件夹：

huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q8_0/*" --local-dir ./

💻 使用示例

提示格式

在使用模型时，需要使用以下提示格式：

human: {system_prompt} {prompt} <sep> assistant:

运行模型

你可以在LM Studio中运行量化文件，也可以直接使用llama.cpp或其他基于llama.cpp的项目来运行。

📚 详细文档

量化信息

量化工具：使用 llama.cpp 版本 b5856 进行量化。
原始模型：RekaAI/reka-flash-3.1
量化数据集：所有量化文件均使用imatrix选项，并使用来自这里的数据集。

下载文件列表

文件名	量化类型	文件大小	拆分	描述
reka-flash-3.1-bf16.gguf	bf16	41.82GB	false	完整的BF16权重。
reka-flash-3.1-Q8_0.gguf	Q8_0	22.22GB	false	极高质量，通常不需要，但为最大可用量化。
reka-flash-3.1-Q6_K_L.gguf	Q6_K_L	18.74GB	false	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
reka-flash-3.1-Q5_K_M.gguf	Q5_K_M	15.64GB	false	高质量，推荐。
reka-flash-3.1-Q4_K_M.gguf	Q4_K_M	13.61GB	false	良好质量，大多数用例的默认大小，推荐。
...	...	...	...	...

嵌入/输出权重

部分量化文件（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。

ARM/AVX信息

在线重打包：现在支持“在线重打包”权重，详情见此PR。如果使用Q4_0且硬件适合重打包权重，将自动进行。
Q4_0_X_X文件：从llama.cpp构建 b4282 开始，无法运行Q4_0_X_X文件，需使用Q4_0。
IQ4_NL：可使用IQ4_NL获得略高的质量，见此PR，它也会为ARM重打包权重，但目前仅支持4_4。加载时间可能较慢，但总体速度会提高。

选择合适的文件

确定模型大小：首先确定可以运行的模型大小，需要考虑系统的RAM和/或VRAM。
追求速度：如果希望模型运行尽可能快，应选择文件大小比GPU总VRAM小1 - 2GB的量化文件。
追求质量：如果追求绝对最高质量，将系统RAM和GPU的VRAM相加，然后选择文件大小比该总和小1 - 2GB的量化文件。
选择I-quant或K-quant：如果不想过多考虑，选择K-quants（格式为'QX_K_X'，如Q5_K_M）；如果想深入了解，可以查看 llama.cpp特性矩阵。对于低于Q4的量化，且使用cuBLAS（Nvidia）或rocBLAS（AMD），可以考虑I-quants（格式为IQX_X，如IQ3_M），它们较新，相同大小下性能更好，但在CPU上运行比K-quant慢。