GLM-4-32B-0414 GGUF开源文本生成模型 - 多量化格式适配不同硬件内存

首页

GLM 4 32B 0414 GGUF

由 Mungert 开发

GLM-4-32B-0414 GGUF模型是一系列强大的文本生成模型，具有多种量化格式，适用于不同硬件和内存条件。

大型语言模型

Transformers

支持多种语言开源协议:MIT #超低比特量化 #多场景文本生成 #动态精度分配

下载量 817

发布时间 : 4/23/2025

模型简介

适用于文本生成任务的模型，支持多种量化格式，可根据硬件条件和需求灵活选择。

模型特点

超低比特量化

支持1-2比特量化，采用精度自适应量化方法，显著提升模型效率。

分层策略

采用层特定策略，在保持内存效率的同时保留准确性。

关键组件保护

嵌入层/输出层使用Q5_K，减少误差传播。

多种量化格式

提供BF16、F16、Q4_K、Q6_K、Q8_0等多种量化格式，适应不同硬件需求。

模型能力

文本生成

网络监控

代码处理

动画生成

网页设计

SVG生成

基于搜索的写作

使用案例

网络监控

AI网络监控助手

测试小型开源模型在AI网络监控方面的性能，包括函数调用、自动化Nmap扫描、量子就绪检查和网络监控任务等。

创意生成

动画生成

生成Python程序实现球在旋转六边形内弹跳，以及HTML模拟小球从旋转六边形中心释放的场景。

网页设计

设计支持自定义函数绘图的绘图板，以及为移动机器学习平台设计UI。

SVG生成

创建江南水乡雾景、展示LLM训练过程等。

教育

基于搜索的写作

根据搜索结果进行作答，适用于教育内容的生成和分析。

🚀 GLM-4-32B-0414 GGUF模型

GLM-4-32B-0414 GGUF模型是一系列强大的文本生成模型，具有多种量化格式，可根据不同硬件和内存条件灵活选择，适用于多种场景，如网络监控、代码处理等。

🚀 快速开始

本模型适用于文本生成任务，你可以根据自身的硬件条件和需求，选择合适的模型格式进行使用。

✨ 主要特性

模型生成细节

本模型使用 llama.cpp 在提交版本 19e899c 时生成。

超低比特量化（1 - 2比特）

精度自适应量化：最新的量化方法为超低比特模型（1 - 2比特）引入了精度自适应量化，经基准测试，在 Llama - 3 - 8B 上有显著提升。
分层策略：采用层特定策略，在保持极高内存效率的同时保留准确性。
关键组件保护：嵌入层/输出层使用Q5_K，与标准1 - 2比特量化相比，可减少38%的误差传播。

量化性能对比（Llama - 3 - 8B）

量化方式	标准困惑度	DynamicGate困惑度	困惑度变化	标准大小	DG大小	大小变化	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键说明：

PPL = 困惑度（越低越好）
Δ PPL = 从标准量化到DynamicGate量化的百分比变化
速度 = 推理时间（CPU avx2，2048令牌上下文）
大小差异反映了混合量化的开销

模型格式选择

可根据 硬件能力 和 内存限制 选择合适的模型格式：

模型格式	精度	内存使用	设备要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	减少内存的高速推理
F16	高	高	支持FP16的设备	BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低VRAM设备	内存受限环境的最佳选择
Q6_K	中	适中	内存较多的CPU	量化模型中准确性较好的选择
Q8_0	高	适中	有足够VRAM的CPU或GPU	量化模型中准确性最佳的选择
IQ3_XS	极低	极低	超低内存设备	极致内存效率和低准确性
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备进行优化

包含文件及详情

GLM-4-32B-0414-bf16.gguf：模型权重保存为 BF16 格式，适用于需要将模型重新量化为其他格式，且设备支持 BF16加速 的情况。
GLM-4-32B-0414-f16.gguf：模型权重保存为 F16 格式，适用于设备支持 FP16，尤其是BF16不可用的情况。
GLM-4-32B-0414-bf16-q8_0.gguf：输出和嵌入层 保持为 BF16，其他层量化为 Q8_0，适用于设备支持 BF16 且需要量化版本的情况。
GLM-4-32B-0414-f16-q8_0.gguf：输出和嵌入层 保持为 F16，其他层量化为 Q8_0。
GLM-4-32B-0414-q4_k.gguf：输出和嵌入层 量化为 Q8_0，其他层量化为 Q4_K，适合内存有限的 CPU推理。
GLM-4-32B-0414-q4_k_s.gguf：最小的 Q4_K 变体，以牺牲一定准确性为代价减少内存使用，适用于 极低内存设置。
GLM-4-32B-0414-q6_k.gguf：输出和嵌入层 量化为 Q8_0，其他层量化为 Q6_K。
GLM-4-32B-0414-q8_0.gguf：完全 Q8 量化的模型，准确性更高，但需要 更多内存。
GLM-4-32B-0414-iq3_xs.gguf：采用 IQ3_XS 量化，针对 极致内存效率 进行优化，适用于 超低内存设备。
GLM-4-32B-0414-iq3_m.gguf：采用 IQ3_M 量化，提供 中等块大小 以提高准确性，适用于 低内存设备。
GLM-4-32B-0414-q4_0.gguf：纯 Q4_0 量化，针对 ARM设备 进行优化，适用于 低内存环境，若追求更高准确性，可优先选择IQ4_NL。

模型测试与应用

测试模型：如果你觉得这些模型有用，可以帮忙测试 AI网络监控助手，该助手具备量子安全检查功能。
- 测试方法：选择一种 AI助手类型，如 TurboLLM（GPT - 4o - mini）、HugLLM（Hugginface开源模型）、TestLLM（仅支持CPU的实验性模型）。
- 测试内容：主要测试小型开源模型在AI网络监控方面的性能，包括函数调用、自动化Nmap扫描、量子就绪检查和网络监控任务等。
不同助手特点
- TurboLLM：使用 gpt - 4o - mini，可创建自定义命令处理器以在免费网络监控代理上运行.NET代码，还能进行实时网络诊断和监控、安全审计、渗透测试等。可通过登录或下载集成AI助手的免费网络监控代理获取更多令牌。
- HugLLM：基于Hugging Face推理API运行的最新开源模型。
- TestLLM：当前的实验性模型（llama.cpp在2个CPU线程上运行），零配置设置，加载时间30秒（推理速度慢但无API成本），欢迎对边缘设备AI感兴趣的开发者参与协作。

📚 详细文档

动画生成

通过视频展示了 GLM-Z1-32B-0414 和 GLM-4-32B-0414 在动画生成方面的能力，包括Python程序实现球在旋转六边形内弹跳，以及HTML模拟小球从旋转六边形中心释放的场景。

网页设计

通过图片展示了 GLM-4-32B-0414 在网页设计方面的能力，如设计支持自定义函数绘图的绘图板，以及为移动机器学习平台设计UI等。

SVG生成

通过图片展示了 GLM-4-32B-0414 在SVG生成方面的能力，如创建江南水乡雾景、展示LLM训练过程等。

基于搜索的写作

使用特定的系统提示让模型根据搜索结果进行作答，使用时可通过 RAG 或 WebSearch 等方法获取搜索结果，并将其包装在 observation 中。

[
    {
        "role": "user",
        "content": "Explore the common characteristics of children's literature, with a focus on its narrative techniques and thematic tendencies. This includes narrative techniques: common approaches in children's literature such as first-person, third-person, omniscient narrator, and interactive narration, and their influence on young readers. It also includes thematic tendencies: recurring themes in children's literature such as growth, adventure, friendship, and family, with an analysis of how these themes impact children's cognitive and emotional development. Additionally, other universal features such as the use of personification, repetitive language, symbolism and metaphor, and educational value should be considered. Please provide a detailed analytical report based on academic research, classic examples of children's literature, and expert o"
    }
]

🔧 技术细节

超低比特量化方法

动态精度分配：前/后25%的层采用IQ4_XS（选定层），中间50%采用IQ2_XXS/IQ3_S（提高效率）。
关键组件保护：嵌入层/输出层使用Q5_K，与标准1 - 2比特量化相比，可减少38%的误差传播。

不同量化格式特点

BF16：16位浮点格式，专为更快计算设计，保留良好精度，动态范围与FP32相似，但内存使用更低，适用于支持BF16加速的硬件。
F16：16位浮点格式，精度较高，但取值范围小于BF16，适用于支持FP16加速的大多数设备。
量化模型：通过量化减少模型大小和内存使用，同时尽可能保留准确性。低比特模型（如Q4_K）适合内存使用最小化场景，但精度可能较低；高比特模型（如Q6_K、Q8_0）准确性更好，但需要更多内存。