模型概述
模型特點
模型能力
使用案例
🚀 writing-roleplay-20k-context-nemo-12b-v1.0的Llamacpp imatrix量化版本
本項目提供了writing-roleplay-20k-context-nemo-12b-v1.0模型的量化版本,使用特定工具和數據集進行量化,方便不同硬件條件下的使用。
🚀 快速開始
本項目使用 llama.cpp 的 b3901 版本進行量化。 原始模型地址:https://huggingface.co/openerotica/writing-roleplay-20k-context-nemo-12b-v1.0 所有量化版本均使用imatrix選項,並採用來自 此處 的數據集。 你可以在 LM Studio 中運行這些量化模型。
✨ 主要特性
提示格式
未找到提示格式,請查看原始模型頁面。
量化文件選擇
提供了多種量化類型的文件供選擇,每種文件在質量、大小和性能上有所不同,可根據自身硬件條件(如RAM、VRAM)和需求進行選擇。
嵌入/輸出權重
部分量化版本(如Q3_K_XL、Q4_K_L等)採用了特殊的量化方法,將嵌入和輸出權重量化為Q8_0,而非默認值。有人認為這能提高質量,也有人認為無明顯差異,歡迎使用這些模型的用戶分享使用反饋。
ARM芯片優化
Q4_0_X_X量化版本專為ARM芯片優化,在ARM芯片上使用可顯著提升速度。可參考 AArch64 SoC特性 來選擇適合自己ARM芯片的量化版本。
📦 安裝指南
安裝huggingface-cli
首先,確保你已安裝huggingface-cli:
pip install -U "huggingface_hub[cli]"
下載特定文件
你可以指定下載特定的文件,例如:
huggingface-cli download bartowski/writing-roleplay-20k-context-nemo-12b-v1.0-GGUF --include "writing-roleplay-20k-context-nemo-12b-v1.0-Q4_K_M.gguf" --local-dir ./
下載拆分文件
如果模型大於50GB,會被拆分為多個文件。若要將所有拆分文件下載到本地文件夾,可運行:
huggingface-cli download bartowski/writing-roleplay-20k-context-nemo-12b-v1.0-GGUF --include "writing-roleplay-20k-context-nemo-12b-v1.0-Q8_0/*" --local-dir ./
你可以指定新的本地目錄,也可以將文件下載到當前目錄(./)。
💻 使用示例
基礎用法
在LM Studio中運行量化模型,可直接加載對應的量化文件。
高級用法
根據自身硬件條件和需求選擇合適的量化文件。例如,若想讓模型儘可能快地運行,應選擇文件大小比GPU總VRAM小1 - 2GB的量化版本;若追求最高質量,可將系統RAM和GPU的VRAM相加,選擇比該總和小1 - 2GB的量化版本。
📚 詳細文檔
量化文件列表
選擇合適的文件
可參考Artefact2提供的 詳細分析 ,其中包含各種性能圖表。
選擇文件時,首先要確定自己能運行多大的模型,這需要了解自己的RAM和/或VRAM容量。 若追求最快運行速度,應選擇文件大小比GPU總VRAM小1 - 2GB的量化版本;若追求最高質量,可將系統RAM和GPU的VRAM相加,選擇比該總和小1 - 2GB的量化版本。
此外,還需決定使用'I-quant'還是'K-quant'。若不想過多思考,可選擇K-quant,格式為'QX_K_X',如Q5_K_M;若想深入瞭解,可查看 llama.cpp特性矩陣 。一般來說,若目標是低於Q4的量化,且使用cuBLAS(Nvidia)或rocBLAS(AMD),可考慮I-quant,格式為IQX_X,如IQ3_M,這些較新的量化方法在相同大小下性能更好。
需注意,I-quant與Vulcan不兼容(Vulcan也是AMD的),若使用AMD顯卡,需確認使用的是rocBLAS版本還是Vulcan版本。目前,LM Studio有支持ROCm的預覽版,其他推理引擎也有針對ROCm的特定版本。
🔧 技術細節
Q4_0_X_X量化版本
這些量化版本 不 適用於Metal(Apple)卸載,僅適用於ARM芯片。在ARM芯片上使用Q4_0_X_X量化版本可顯著提升速度,可查看 原始拉取請求 中的Q4_0_4_4速度比較。
若要確定哪個量化版本最適合自己的ARM芯片,可查看 AArch64 SoC特性 (感謝EloyOn!)。
嵌入/輸出權重量化
部分量化版本(如Q3_K_XL、Q4_K_L等)採用了特殊的量化方法,將嵌入和輸出權重量化為Q8_0,而非默認值。有人認為這能提高質量,也有人認為無明顯差異,歡迎使用這些模型的用戶分享使用反饋。
📄 許可證
文檔未提及許可證相關信息。
致謝
感謝kalomaze和Dampf協助創建imatrix校準數據集。 感謝ZeroWw提供關於嵌入/輸出實驗的靈感。
如果你想支持作者的工作,可訪問 ko-fi頁面 。



