RekaAI_reka-flash-3.1-GGUF開源模型 - 節省資源適合受限設備運行

首頁

Rekaai Reka Flash 3.1 GGUF

由bartowski開發

這是RekaAI的reka-flash-3.1模型的Llamacpp imatrix量化版本，通過量化技術減少模型存儲空間和計算資源需求，適合資源受限的設備運行。

大型語言模型開源協議:Apache-2.0 #高效量化 #多硬件適配 #低資源部署

下載量 1,449

發布時間 : 7/10/2025

模型概述

該項目提供了RekaAI reka-flash-3.1模型的多種量化版本，旨在在保持模型性能的同時，降低資源消耗，便於在各類硬件上部署和使用。

模型特點

多種量化類型

提供多種量化選項（如bf16、Q8_0、Q6_K_L等），滿足不同性能和質量的平衡需求。

在線重打包

支持在線重打包技術，可根據硬件情況自動優化權重，提升模型運行效率。

詳細選擇指南

提供詳細的量化文件選擇指南，幫助用戶根據硬件資源選擇最適合的量化版本。

模型能力

文本生成

多語言支持

高效推理

使用案例

資源受限設備部署

邊緣設備運行

在存儲和計算資源有限的邊緣設備上高效運行大型語言模型。

顯著降低資源消耗，保持較高模型性能。

研究與開發

模型量化研究

用於研究和比較不同量化技術對模型性能的影響。

提供多種量化版本便於對比分析。

🚀 RekaAI的reka-flash-3.1模型Llamacpp imatrix量化版本

本項目是對RekaAI的reka-flash-3.1模型進行的Llamacpp imatrix量化版本。使用量化技術可以在保持一定模型性能的前提下，減少模型的存儲空間和計算資源需求，從而更適合在資源受限的設備上運行。

🚀 快速開始

本項目提供了RekaAI的reka-flash-3.1模型的量化版本，你可以根據自己的需求選擇合適的量化文件進行下載和使用。以下是一些基本的使用步驟：

下載量化文件：從下面的表格中選擇合適的量化文件進行下載。
運行模型：可以在LM Studio中運行，也可以直接使用llama.cpp或其他基於llama.cpp的項目來運行。

✨ 主要特性

多種量化類型：提供了多種不同的量化類型，如bf16、Q8_0、Q6_K_L等，滿足不同的性能和質量需求。
在線重打包：部分量化文件支持在線重打包，可根據硬件情況自動優化性能。
詳細的選擇指南：提供了詳細的文件選擇指南，幫助用戶根據自己的硬件資源選擇合適的量化文件。

📦 安裝指南

安裝huggingface-cli

如果你想使用huggingface-cli來下載量化文件，首先需要確保你已經安裝了它：

pip install -U "huggingface_hub[cli]"

下載單個文件

如果你只想下載單個量化文件，可以使用以下命令：

huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q4_K_M.gguf" --local-dir ./

下載拆分文件

如果模型文件大於50GB，它會被拆分成多個文件。你可以使用以下命令將它們全部下載到本地文件夾：

huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q8_0/*" --local-dir ./

💻 使用示例

提示格式

在使用模型時，需要使用以下提示格式：

human: {system_prompt} {prompt} <sep> assistant:

運行模型

你可以在LM Studio中運行量化文件，也可以直接使用llama.cpp或其他基於llama.cpp的項目來運行。

📚 詳細文檔

量化信息

量化工具：使用 llama.cpp 版本 b5856 進行量化。
原始模型：RekaAI/reka-flash-3.1
量化數據集：所有量化文件均使用imatrix選項，並使用來自這裡的數據集。

下載文件列表

文件名	量化類型	文件大小	拆分	描述
reka-flash-3.1-bf16.gguf	bf16	41.82GB	false	完整的BF16權重。
reka-flash-3.1-Q8_0.gguf	Q8_0	22.22GB	false	極高質量，通常不需要，但為最大可用量化。
reka-flash-3.1-Q6_K_L.gguf	Q6_K_L	18.74GB	false	嵌入和輸出權重使用Q8_0。非常高質量，接近完美，推薦。
reka-flash-3.1-Q5_K_M.gguf	Q5_K_M	15.64GB	false	高質量，推薦。
reka-flash-3.1-Q4_K_M.gguf	Q4_K_M	13.61GB	false	良好質量，大多數用例的默認大小，推薦。
...	...	...	...	...

嵌入/輸出權重

部分量化文件（如Q3_K_XL、Q4_K_L等）採用標準量化方法，將嵌入和輸出權重量化為Q8_0，而非默認值。

ARM/AVX信息

在線重打包：現在支持“在線重打包”權重，詳情見此PR。如果使用Q4_0且硬件適合重打包權重，將自動進行。
Q4_0_X_X文件：從llama.cpp構建 b4282 開始，無法運行Q4_0_X_X文件，需使用Q4_0。
IQ4_NL：可使用IQ4_NL獲得略高的質量，見此PR，它也會為ARM重打包權重，但目前僅支持4_4。加載時間可能較慢，但總體速度會提高。

選擇合適的文件

確定模型大小：首先確定可以運行的模型大小，需要考慮系統的RAM和/或VRAM。
追求速度：如果希望模型運行儘可能快，應選擇文件大小比GPU總VRAM小1 - 2GB的量化文件。
追求質量：如果追求絕對最高質量，將系統RAM和GPU的VRAM相加，然後選擇文件大小比該總和小1 - 2GB的量化文件。
選擇I-quant或K-quant：如果不想過多考慮，選擇K-quants（格式為'QX_K_X'，如Q5_K_M）；如果想深入瞭解，可以查看 llama.cpp特性矩陣。對於低於Q4的量化，且使用cuBLAS（Nvidia）或rocBLAS（AMD），可以考慮I-quants（格式為IQX_X，如IQ3_M），它們較新，相同大小下性能更好，但在CPU上運行比K-quant慢。