NousResearch_DeepHermes-3-Llama-3-3B-Preview-GGUF開源模型 - 支持對話推理角色扮演輔助通用AI場景

首頁

Nousresearch DeepHermes 3 Llama 3 3B Preview GGUF

由bartowski開發

基於Llama-3-3B架構的指令微調模型，支持對話、推理和角色扮演等任務，適用於通用人工智能輔助場景。

大型語言模型英語#多輪對話優化 #低資源推理 #指令精調

下載量 1,033

發布時間 : 4/25/2025

模型概述

這是一個經過精調的Llama-3-3B模型，採用ChatML提示格式，支持函數調用和JSON模式，適用於各種對話和推理任務。

模型特點

指令微調

模型經過專門微調以更好地理解和執行用戶指令

多量化版本

提供從BF16到Q2_K_L等多種量化版本，適應不同硬件需求

ChatML支持

採用ChatML提示格式，便於構建多輪對話系統

函數調用能力

支持函數調用功能，可集成到更復雜的系統中

模型能力

文本生成

對話交互

邏輯推理

角色扮演

指令執行

使用案例

智能助手

個人AI導師

作為有感知力的超級智能AI，為用戶提供教育和指導

可回答複雜問題並提供深入解釋

對話系統

多輪對話

支持基於ChatML格式的多輪對話交互

保持對話連貫性和上下文理解

🚀 NousResearch的DeepHermes-3-Llama-3-3B-Preview的Llamacpp imatrix量化模型

本項目提供了NousResearch的DeepHermes-3-Llama-3-3B-Preview模型的量化版本，使用llama.cpp工具進行量化處理，方便在不同硬件環境下高效運行。

🚀 快速開始

量化工具

使用 llama.cpp 發佈版本 b4877 進行量化。

原始模型

原始模型鏈接：https://huggingface.co/NousResearch/DeepHermes-3-Llama-3-3B-Preview

量化數據集

所有量化模型均使用imatrix選項，並採用來自此處的數據集。

運行方式

LM Studio：可在 LM Studio 中運行量化模型。
llama.cpp：可直接使用 llama.cpp 或任何基於llama.cpp的項目運行。

✨ 主要特性

多種量化類型：提供了豐富的量化類型，如bf16、Q8_0、Q6_K_L等，滿足不同硬件和性能需求。
靈活的運行方式：支持在LM Studio和基於llama.cpp的項目中運行。
詳細的提示格式：明確了模型的提示格式，方便用戶使用。

📦 安裝指南

安裝huggingface-cli

首先，確保你已安裝huggingface-cli：

pip install -U "huggingface_hub[cli]"

下載指定文件

你可以根據需求下載特定的量化文件，例如：

huggingface-cli download bartowski/NousResearch_DeepHermes-3-Llama-3-3B-Preview-GGUF --include "NousResearch_DeepHermes-3-Llama-3-3B-Preview-Q4_K_M.gguf" --local-dir ./

下載拆分文件

如果模型大小超過50GB，可能已拆分為多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/NousResearch_DeepHermes-3-Llama-3-3B-Preview-GGUF --include "NousResearch_DeepHermes-3-Llama-3-3B-Preview-Q8_0/*" --local-dir ./

你可以指定新的本地目錄，也可以將它們全部下載到當前目錄（./）。

💻 使用示例

提示格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

📚 詳細文檔

下載文件列表

文件名	量化類型	文件大小	拆分情況	描述
DeepHermes-3-Llama-3-3B-Preview-bf16.gguf	bf16	6.43GB	false	完整的BF16權重。
DeepHermes-3-Llama-3-3B-Preview-Q8_0.gguf	Q8_0	3.42GB	false	極高質量，通常不需要，但為最大可用量化。
DeepHermes-3-Llama-3-3B-Preview-Q6_K_L.gguf	Q6_K_L	2.74GB	false	嵌入和輸出權重使用Q8_0。非常高質量，接近完美，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q6_K.gguf	Q6_K	2.64GB	false	非常高質量，接近完美，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q5_K_L.gguf	Q5_K_L	2.42GB	false	嵌入和輸出權重使用Q8_0。高質量，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q5_K_M.gguf	Q5_K_M	2.32GB	false	高質量，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q5_K_S.gguf	Q5_K_S	2.27GB	false	高質量，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q4_K_L.gguf	Q4_K_L	2.11GB	false	嵌入和輸出權重使用Q8_0。質量良好，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q4_1.gguf	Q4_1	2.09GB	false	舊格式，性能與Q4_K_S相似，但在Apple硅芯片上的每瓦令牌數有所提高。
DeepHermes-3-Llama-3-3B-Preview-Q4_K_M.gguf	Q4_K_M	2.02GB	false	質量良好，是大多數用例的默認大小，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q4_K_S.gguf	Q4_K_S	1.93GB	false	質量略低，但節省更多空間，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q4_0.gguf	Q4_0	1.92GB	false	舊格式，為ARM和AVX CPU推理提供在線重新打包。
DeepHermes-3-Llama-3-3B-Preview-IQ4_NL.gguf	IQ4_NL	1.92GB	false	與IQ4_XS相似，但略大。為ARM CPU推理提供在線重新打包。
DeepHermes-3-Llama-3-3B-Preview-Q3_K_XL.gguf	Q3_K_XL	1.91GB	false	嵌入和輸出權重使用Q8_0。質量較低但可用，適合低內存情況。
DeepHermes-3-Llama-3-3B-Preview-IQ4_XS.gguf	IQ4_XS	1.83GB	false	質量不錯，比Q4_K_S小，性能相似，推薦。
DeepHermes-3-Llama-3-3B-Preview-Q3_K_L.gguf	Q3_K_L	1.82GB	false	質量較低但可用，適合低內存情況。
DeepHermes-3-Llama-3-3B-Preview-Q3_K_M.gguf	Q3_K_M	1.69GB	false	低質量。
DeepHermes-3-Llama-3-3B-Preview-IQ3_M.gguf	IQ3_M	1.60GB	false	中低質量，新方法，性能與Q3_K_M相當。
DeepHermes-3-Llama-3-3B-Preview-Q3_K_S.gguf	Q3_K_S	1.54GB	false	低質量，不推薦。
DeepHermes-3-Llama-3-3B-Preview-IQ3_XS.gguf	IQ3_XS	1.48GB	false	質量較低，新方法，性能不錯，略優於Q3_K_S。
DeepHermes-3-Llama-3-3B-Preview-Q2_K_L.gguf	Q2_K_L	1.46GB	false	嵌入和輸出權重使用Q8_0。質量非常低，但出人意料地可用。
DeepHermes-3-Llama-3-3B-Preview-Q2_K.gguf	Q2_K	1.36GB	false	質量非常低，但出人意料地可用。
DeepHermes-3-Llama-3-3B-Preview-IQ3_XXS.gguf	IQ3_XXS	1.35GB	false	質量較低，新方法，性能不錯，與Q3量化相當。
DeepHermes-3-Llama-3-3B-Preview-IQ2_M.gguf	IQ2_M	1.23GB	false	質量相對較低，使用最先進技術，出人意料地可用。