Josiefied-Qwen3-8B-abliterated-v1-GGUF開源模型 - 優化內存與速度，推理更高效

首頁

Josiefied Qwen3 8B Abliterated V1 GGUF

由Mungert開發

基於Qwen3-8B的量化版本，採用IQ-DynamicGate超低位量化技術，優化內存效率和推理速度

大型語言模型 #超低位量化 #邊緣設備推理 #動態精度分配

下載量 559

發布時間 : 5/14/2025

模型概述

該模型是Qwen3-8B的量化版本，特別針對低內存設備和邊緣計算優化，支持多種量化格式以適應不同硬件需求

模型特點

IQ-DynamicGate超低位量化

採用1-2比特量化技術，顯著減少內存佔用同時保持較高精度

分層量化策略

對不同層採用不同量化精度，關鍵組件保護確保模型性能

多格式支持

提供BF16、F16及多種量化格式，適應不同硬件需求

模型能力

文本生成

低內存推理

邊緣設備部署

使用案例

邊緣計算

低內存設備推理

在內存受限的設備上運行大型語言模型

減少內存佔用同時保持合理精度

研究

超低位量化研究

研究1-2比特量化對模型性能的影響

提供多種量化變體供研究比較

🚀 Josiefied-Qwen3-8B-abliterated-v1 GGUF模型

本項目提供了基於Qwen3-8B微調的Josiefied-Qwen3-8B-abliterated-v1 GGUF模型，介紹了其生成細節、量化方法、模型格式選擇等內容，還提供了模型測試和使用的相關信息。

🚀 快速開始

如果你想使用這些模型，可以根據自身的硬件條件和需求選擇合適的模型格式。同時，若你覺得這些模型有用，可點擊“Like”，還能參與AI網絡監控的測試。

✨ 主要特性

超低比特量化：採用IQ-DynamicGate方法，在超低比特（1 - 2比特）量化上有顯著提升，能在保持極端內存效率的同時保留準確性。
多種模型格式：提供BF16、F16、Q4_K等多種模型格式，可根據硬件能力和內存限制進行選擇。
廣泛的應用場景：適用於GPU、CPU、ARM設備等不同硬件，可用於網絡監控、量子就緒性檢查等任務。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

使用ollama運行模型的示例代碼如下：

ollama run goekdenizguelmez/JOSIEFIED-Qwen3
ollama run goekdenizguelmez/JOSIEFIED-Qwen3:8b
ollama run goekdenizguelmez/JOSIEFIED-Qwen3:8b-q4_k_m
ollama run goekdenizguelmez/JOSIEFIED-Qwen3:8b-q5_k_m
ollama run goekdenizguelmez/JOSIEFIED-Qwen3:8b-q6_k
ollama run goekdenizguelmez/JOSIEFIED-Qwen3:8b-q8_0
ollama run goekdenizguelmez/JOSIEFIED-Qwen3:8b-fp16

高級用法

在測試AI網絡監控時，可選擇不同的AI助手類型：

# 選擇AI助手類型
- `TurboLLM` (GPT-4o-mini)
- `HugLLM` (Hugginface Open-source)
- `TestLLM` (Experimental CPU-only)

📚 詳細文檔

模型生成細節

本模型使用llama.cpp在提交版本e5c834f7生成。

超低比特量化（1 - 2比特）

基準測試背景

所有測試在Llama-3-8B-Instruct上進行，使用標準困惑度評估管道、2048令牌上下文窗口，且所有量化使用相同的提示集。

方法

動態精度分配：
- 前/後25%的層採用IQ4_XS（選定層）。
- 中間50%採用IQ2_XXS/IQ3_S（提高效率）。
關鍵組件保護：
- 嵌入層/輸出層使用Q5_K，與標準1 - 2比特量化相比，可減少38%的誤差傳播。

量化性能比較（Llama-3-8B）

量化方式	標準困惑度	DynamicGate困惑度	困惑度變化	標準大小	DG大小	大小變化	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

使用場景

適配GPU顯存
內存受限的部署
可容忍1 - 2比特誤差的CPU和邊緣設備
超低比特量化研究

選擇合適的模型格式

選擇正確的模型格式取決於你的硬件能力和內存限制。

BF16（Brain Float 16）

適用條件：硬件支持BF16加速，需要更高精度並節省內存，或計劃將模型重新量化為其他格式。
避免情況：硬件不支持BF16，或需要與缺乏BF16優化的舊設備兼容。

F16（Float 16）

適用條件：硬件支持FP16但不支持BF16，需要在速度、內存使用和準確性之間取得平衡，或在為FP16計算優化的GPU或其他設備上運行。
避免情況：設備缺乏原生FP16支持，或有內存限制。

量化模型（Q4_K、Q6_K、Q8等）

適用條件：在CPU上運行推理，設備顯存低無法加載全精度模型，或希望在保持合理準確性的同時減少內存佔用。
避免情況：需要最高準確性，或硬件有足夠顯存支持更高精度格式（BF16/F16）。

極低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

模型格式	適用場景	權衡
IQ3_XS	超低內存設備，即使Q4_K也太大	與高比特量化相比，準確性較低
IQ3_S	低內存設備，IQ3_XS過於激進	-
IQ3_M	低內存設備，IQ3_S限制太大	-
Q4_K	低內存設備，Q6_K太大	-
Q4_0	ARM設備或低內存環境	-

模型格式選擇總結表

模型格式	精度	內存使用	設備要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	減少內存的高速推理
F16	高	高	支持FP16的設備	BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限的環境
Q6_K	中等	適中	內存較多的CPU	量化模型中較好的準確性
Q8_0	高	適中	有足夠顯存的CPU或GPU	量化模型中最高的準確性
IQ3_XS	非常低	非常低	超低內存設備	極端內存效率和低準確性
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備優化

包含的文件及詳情

文件名	描述
`Josiefied-Qwen3-8B-abliterated-v1-bf16.gguf`	模型權重保存為BF16，適用於需要重新量化模型或設備支持BF16加速的情況
`Josiefied-Qwen3-8B-abliterated-v1-f16.gguf`	模型權重保存為F16，適用於設備支持FP16且BF16不可用的情況
`Josiefied-Qwen3-8B-abliterated-v1-bf16-q8_0.gguf`	輸出和嵌入層保持為BF16，其他層量化為Q8_0，適用於設備支持BF16且需要量化版本的情況
`Josiefied-Qwen3-8B-abliterated-v1-f16-q8_0.gguf`	輸出和嵌入層保持為F16，其他層量化為Q8_0
`Josiefied-Qwen3-8B-abliterated-v1-q4_k.gguf`	輸出和嵌入層量化為Q8_0，其他層量化為Q4_K，適用於內存有限的CPU推理
`Josiefied-Qwen3-8B-abliterated-v1-q4_k_s.gguf`	最小的Q4_K變體，以犧牲準確性為代價減少內存使用，適用於極低內存設置
`Josiefied-Qwen3-8B-abliterated-v1-q6_k.gguf`	輸出和嵌入層量化為Q8_0，其他層量化為Q6_K
`Josiefied-Qwen3-8B-abliterated-v1-q8_0.gguf`	全Q8量化模型，需要更多內存但提供更高精度
`Josiefied-Qwen3-8B-abliterated-v1-iq3_xs.gguf`	IQ3_XS量化，針對極端內存效率進行優化，適用於超低內存設備
`Josiefied-Qwen3-8B-abliterated-v1-iq3_m.gguf`	IQ3_M量化，提供中等塊大小以提高準確性，適用於低內存設備
`Josiefied-Qwen3-8B-abliterated-v1-q4_0.gguf`	純Q4_0量化，針對ARM設備優化，適用於低內存環境，若追求更高準確性可選擇IQ4_NL

模型測試

測試方法

選擇AI助手類型：

TurboLLM (GPT-4o-mini)
HugLLM (Hugginface Open-source)
TestLLM (Experimental CPU-only)

測試內容

推動小型開源模型在AI網絡監控中的極限，具體包括：

針對即時網絡服務的函數調用。
模型在處理自動化Nmap掃描、量子就緒性檢查、網絡監控任務時的最小規模。

TestLLM

零配置設置。
加載時間約30秒（推理慢但無API成本）。
尋求幫助：如果你對邊緣設備AI感興趣，歡迎合作！

其他助手

TurboLLM：使用gpt-4o-mini，可創建自定義cmd處理器在免費網絡監控代理上運行.net代碼、進行即時網絡診斷和監控、安全審計、滲透測試等。
HugLLM：最新的開源模型，在Hugging Face推理API上運行。

示例命令

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" 注意：需要安裝免費網絡監控代理才能運行.net代碼，這是一個非常靈活和強大的功能，請謹慎使用！