DeepSeek-V2-Lite-IMat-GGUF開源模型 - 減少資源需求，便於免費部署應用

首頁

Deepseek V2 Lite IMat GGUF

由legraphista開發

DeepSeek-V2-Lite 的 GGUF 量化版本，通過 Llama.cpp imatrix 量化處理，減少存儲和計算資源需求，便於部署。

大型語言模型 #高效量化 #多精度適配 #輕量部署

下載量 491

發布時間 : 5/26/2024

模型概述

該模型是對 DeepSeek-V2-Lite 進行量化處理後的版本，適用於在資源受限的設備上進行高效推理。

模型特點

高效量化

通過 Llama.cpp imatrix 量化處理，顯著減少模型大小和計算資源需求。

多量化選項

提供多種量化級別（如 Q8_0、Q6_K、Q4_K 等），適應不同硬件需求。

易於部署

支持在多種設備上運行，適合本地推理。

模型能力

文本生成

高效推理

使用案例

本地推理

文本生成

在本地設備上運行模型生成文本。

高效生成文本，適合資源受限環境。

🚀 DeepSeek-V2-Lite-IMat-GGUF

本項目是對deepseek-ai/DeepSeek-V2-Lite模型進行Llama.cpp imatrix量化處理後的成果。它能在保證一定性能的前提下，有效減少模型的存儲和計算資源需求，方便在不同設備上進行部署和推理。

原始模型：deepseek-ai/DeepSeek-V2-Lite
原始數據類型：BF16 (bfloat16)
量化工具：llama.cpp https://github.com/ggerganov/llama.cpp/pull/7519
IMatrix數據集：點擊查看

📦 安裝指南

使用`huggingface-cli`下載

若你尚未安裝huggingface-cli，可執行以下命令進行安裝：

pip install -U "huggingface_hub[cli]"

下載指定文件：

huggingface-cli download legraphista/DeepSeek-V2-Lite-IMat-GGUF --include "DeepSeek-V2-Lite.Q8_0.gguf" --local-dir ./

若模型文件較大，已被拆分為多個文件。若要將它們全部下載到本地文件夾，可運行以下命令：

huggingface-cli download legraphista/DeepSeek-V2-Lite-IMat-GGUF --include "DeepSeek-V2-Lite.Q8_0/*" --local-dir DeepSeek-V2-Lite.Q8_0
# 合併GGUF文件的方法請參考常見問題解答

💻 使用示例

Llama.cpp推理

llama.cpp/main -m DeepSeek-V2-Lite.Q8_0.gguf --color -i -p "prompt here"

📚 詳細文檔

文件信息

IMatrix

狀態：✅ 可用
鏈接：點擊查看

常用量化文件

文件名	量化類型	文件大小	狀態	是否使用IMatrix	是否拆分
DeepSeek-V2-Lite.Q8_0.gguf	Q8_0	16.70GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q6_K.gguf	Q6_K	14.07GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q4_K.gguf	Q4_K	10.36GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q3_K.gguf	Q3_K	8.13GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q2_K.gguf	Q2_K	6.43GB	✅ 可用	✅ 是	❌ 否

所有量化文件

文件名	量化類型	文件大小	狀態	是否使用IMatrix	是否拆分
DeepSeek-V2-Lite.FP16.gguf	F16	31.42GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.BF16.gguf	BF16	31.42GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q5_K.gguf	Q5_K	11.85GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q5_K_S.gguf	Q5_K_S	11.14GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q4_K_S.gguf	Q4_K_S	9.53GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q3_K_L.gguf	Q3_K_L	8.46GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q3_K_S.gguf	Q3_K_S	7.49GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q2_K_S.gguf	Q2_K_S	6.46GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ4_NL.gguf	IQ4_NL	8.91GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ4_XS.gguf	IQ4_XS	8.57GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ3_M.gguf	IQ3_M	7.55GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ3_S.gguf	IQ3_S	7.49GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ3_XS.gguf	IQ3_XS	7.12GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ3_XXS.gguf	IQ3_XXS	6.96GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ2_M.gguf	IQ2_M	6.33GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ2_S.gguf	IQ2_S	6.01GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ2_XS.gguf	IQ2_XS	5.97GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ2_XXS.gguf	IQ2_XXS	5.64GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ1_M.gguf	IQ1_M	5.24GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ1_S.gguf	IQ1_S	4.99GB	✅ 可用	✅ 是	❌ 否

🔧 技術細節

為何IMatrix並非在所有地方都適用？

根據此調查，似乎只有較低的量化級別能從imatrix輸入中受益（根據hellaswag的結果）。

如何合併拆分的GGUF文件？

確保你已獲取gguf-split工具：
- 訪問https://github.com/ggerganov/llama.cpp/releases 。
- 從最新版本中下載適合你係統的壓縮包。
- 解壓壓縮包，你應該能找到gguf-split工具。
找到你的GGUF文件塊所在的文件夾（例如：DeepSeek-V2-Lite.Q8_0）。
運行以下命令合併文件：

gguf-split --merge DeepSeek-V2-Lite.Q8_0/DeepSeek-V2-Lite.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite.Q8_0.gguf

請確保將gguf-split指向拆分文件的第一個塊。

若你有任何建議，歡迎通過@legraphista聯繫我！

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫