🚀 RekaAI的reka-flash-3.1模型Llamacpp imatrix量化版本
本項目是對RekaAI的reka-flash-3.1模型進行的Llamacpp imatrix量化版本。使用量化技術可以在保持一定模型性能的前提下,減少模型的存儲空間和計算資源需求,從而更適合在資源受限的設備上運行。
🚀 快速開始
本項目提供了RekaAI的reka-flash-3.1模型的量化版本,你可以根據自己的需求選擇合適的量化文件進行下載和使用。以下是一些基本的使用步驟:
✨ 主要特性
- 多種量化類型:提供了多種不同的量化類型,如bf16、Q8_0、Q6_K_L等,滿足不同的性能和質量需求。
- 在線重打包:部分量化文件支持在線重打包,可根據硬件情況自動優化性能。
- 詳細的選擇指南:提供了詳細的文件選擇指南,幫助用戶根據自己的硬件資源選擇合適的量化文件。
📦 安裝指南
安裝huggingface-cli
如果你想使用huggingface-cli來下載量化文件,首先需要確保你已經安裝了它:
pip install -U "huggingface_hub[cli]"
下載單個文件
如果你只想下載單個量化文件,可以使用以下命令:
huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q4_K_M.gguf" --local-dir ./
下載拆分文件
如果模型文件大於50GB,它會被拆分成多個文件。你可以使用以下命令將它們全部下載到本地文件夾:
huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q8_0/*" --local-dir ./
💻 使用示例
提示格式
在使用模型時,需要使用以下提示格式:
human: {system_prompt} {prompt} <sep> assistant:
運行模型
你可以在LM Studio中運行量化文件,也可以直接使用llama.cpp或其他基於llama.cpp的項目來運行。
📚 詳細文檔
量化信息
下載文件列表
嵌入/輸出權重
部分量化文件(如Q3_K_XL、Q4_K_L等)採用標準量化方法,將嵌入和輸出權重量化為Q8_0,而非默認值。
ARM/AVX信息
- 在線重打包:現在支持“在線重打包”權重,詳情見 此PR。如果使用Q4_0且硬件適合重打包權重,將自動進行。
- Q4_0_X_X文件:從llama.cpp構建 b4282 開始,無法運行Q4_0_X_X文件,需使用Q4_0。
- IQ4_NL:可使用IQ4_NL獲得略高的質量,見 此PR,它也會為ARM重打包權重,但目前僅支持4_4。加載時間可能較慢,但總體速度會提高。
選擇合適的文件
- 確定模型大小:首先確定可以運行的模型大小,需要考慮系統的RAM和/或VRAM。
- 追求速度:如果希望模型運行儘可能快,應選擇文件大小比GPU總VRAM小1 - 2GB的量化文件。
- 追求質量:如果追求絕對最高質量,將系統RAM和GPU的VRAM相加,然後選擇文件大小比該總和小1 - 2GB的量化文件。
- 選擇I-quant或K-quant:如果不想過多考慮,選擇K-quants(格式為'QX_K_X',如Q5_K_M);如果想深入瞭解,可以查看 llama.cpp特性矩陣。對於低於Q4的量化,且使用cuBLAS(Nvidia)或rocBLAS(AMD),可以考慮I-quants(格式為IQX_X,如IQ3_M),它們較新,相同大小下性能更好,但在CPU上運行比K-quant慢。
🔧 技術細節
量化方法
使用llama.cpp的特定版本進行量化,確保模型在不同硬件上的高效運行。
在線重打包
在線重打包技術可以根據硬件情況自動優化權重,提高模型的性能。
📄 許可證
本項目使用 Apache-2.0 許可證。
致謝
感謝kalomaze和Dampf協助創建imatrix校準數據集。
感謝ZeroWw啟發對嵌入/輸出進行實驗。
感謝LM Studio贊助本項目。
如果你想支持我的工作,請訪問我的ko-fi頁面:https://ko-fi.com/bartowski