模型概述
模型特點
模型能力
使用案例
🚀 Mistral-Small-3.2-24B-Instruct-2506的Llamacpp imatrix量化版本
本項目是對Mistral-Small-3.2-24B-Instruct-2506模型進行的Llamacpp imatrix量化處理,旨在提供不同量化類型的模型文件,以滿足不同硬件和性能需求。用戶可以根據自身設備的內存和性能選擇合適的量化文件,並在LM Studio或基於llama.cpp的項目中運行。
🔍 項目信息
屬性 | 詳情 |
---|---|
量化者 | bartowski |
任務類型 | 圖像文本到文本 |
支持語言 | 英語、法語、德語、西班牙語、葡萄牙語、意大利語、日語、韓語、俄語、中文、阿拉伯語、波斯語、印尼語、馬來語、尼泊爾語、波蘭語、羅馬尼亞語、塞爾維亞語、瑞典語、土耳其語、烏克蘭語、越南語、印地語、孟加拉語 |
基礎模型 | mistralai/Mistral-Small-3.2-24B-Instruct-2506 |
基礎模型關係 | 量化版本 |
許可證 | Apache-2.0 |
推理功能 | 否 |
⚠️ 重要提示
如果你想了解我們如何處理你的個人數據,請閱讀我們的 隱私政策。
🚀 快速開始
運行方式
提示格式
<s>[SYSTEM_PROMPT]{system_prompt}[/SYSTEM_PROMPT][INST]{prompt}[/INST]
✨ 主要特性
- 多種量化類型:提供了豐富的量化類型,如bf16、Q8_0、Q6_K_L等,用戶可根據需求選擇不同的量化文件。
- 在線重打包:部分量化文件支持在線重打包,可自動優化硬件性能。
- 性能優化:部分量化文件通過將嵌入和輸出權重量化為Q8_0,提高了模型的性能和質量。
📦 安裝指南
安裝huggingface-cli
pip install -U "huggingface_hub[cli]"
下載單個文件
huggingface-cli download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf" --local-dir ./
下載拆分文件
如果模型大於50GB,已拆分為多個文件,可使用以下命令下載到本地文件夾:
huggingface-cli download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q8_0/*" --local-dir ./
💻 使用示例
基礎用法
在LM Studio中,選擇下載的量化文件即可開始使用。
高級用法
使用llama.cpp直接運行模型,可根據需求調整參數,以獲得更好的性能和效果。
📚 詳細文檔
下載文件列表
嵌入/輸出權重
部分量化文件(如Q3_K_XL、Q4_K_L等)採用標準量化方法,將嵌入和輸出權重量化為Q8_0,而非默認值。
ARM/AVX信息
以前,用戶會下載Q4_0_4_4/4_8/8_8文件,這些文件的權重在內存中交錯排列,以提高ARM和AVX機器的性能。現在,有了“在線重打包”功能,詳情見 此PR。如果使用Q4_0且硬件適合重打包權重,系統將自動進行優化。
從llama.cpp構建 b4282 開始,將無法運行Q4_0_X_X文件,需使用Q4_0。此外,根據 此PR,可使用IQ4_NL獲得更好的質量,它也會為ARM重打包權重,但目前僅支持4_4。加載時間可能會變慢,但總體速度會提高。
如何選擇文件
點擊查看詳情
Artefact2提供了一份很棒的帶有圖表的文章,展示了各種性能表現,點擊查看。
首先,確定你能運行的模型大小。這需要了解你擁有的RAM和/或VRAM容量。
- 追求極致速度:如果你希望模型運行得儘可能快,應將整個模型放入GPU的VRAM中。選擇文件大小比GPU總VRAM小1 - 2GB的量化文件。
- 追求極致質量:如果你追求絕對的最高質量,將系統RAM和GPU的VRAM相加,然後選擇文件大小比該總和小1 - 2GB的量化文件。
接下來,你需要決定是使用“I-quant”還是“K-quant”。
- 簡單選擇:如果你不想考慮太多,可以選擇K-quant。這些文件的格式為“QX_K_X”,如Q5_K_M。
- 深入研究:如果你想深入瞭解,可以查看這個非常有用的功能圖表:llama.cpp功能矩陣。
一般來說,如果你目標是低於Q4的量化,並且使用cuBLAS(Nvidia)或rocBLAS(AMD),應該考慮I-quant。這些文件的格式為IQX_X,如IQ3_M。它們是較新的格式,在相同大小下提供更好的性能。
I-quant也可以在CPU上使用,但速度會比相應的K-quant慢,因此你需要在速度和性能之間做出權衡。
🔧 技術細節
本項目使用 llama.cpp 發佈版本 b5697 進行量化。所有量化文件均使用imatrix選項,並使用 此處 的數據集。
📄 許可證
本項目採用Apache-2.0許可證。
致謝
感謝kalomaze和Dampf協助創建imatrix校準數據集。 感謝ZeroWw提供關於嵌入/輸出實驗的靈感。 感謝LM Studio贊助我的工作。
如果你想支持我的工作,請訪問我的ko-fi頁面:https://ko-fi.com/bartowski



