🚀 GLM-4-32B-0414 GGUF模型
GLM-4-32B-0414 GGUF模型是一系列强大的文本生成模型,具有多种量化格式,可根据不同硬件和内存条件灵活选择,适用于多种场景,如网络监控、代码处理等。
🚀 快速开始
本模型适用于文本生成任务,你可以根据自身的硬件条件和需求,选择合适的模型格式进行使用。
✨ 主要特性
模型生成细节
本模型使用 llama.cpp 在提交版本 19e899c
时生成。
超低比特量化(1 - 2比特)
- 精度自适应量化:最新的量化方法为超低比特模型(1 - 2比特)引入了精度自适应量化,经基准测试,在 Llama - 3 - 8B 上有显著提升。
- 分层策略:采用层特定策略,在保持极高内存效率的同时保留准确性。
- 关键组件保护:嵌入层/输出层使用Q5_K,与标准1 - 2比特量化相比,可减少38%的误差传播。
量化性能对比(Llama - 3 - 8B)
量化方式 |
标准困惑度 |
DynamicGate困惑度 |
困惑度变化 |
标准大小 |
DG大小 |
大小变化 |
标准速度 |
DG速度 |
IQ2_XXS |
11.30 |
9.84 |
-12.9% |
2.5G |
2.6G |
+0.1G |
234s |
246s |
IQ2_XS |
11.72 |
11.63 |
-0.8% |
2.7G |
2.8G |
+0.1G |
242s |
246s |
IQ2_S |
14.31 |
9.02 |
-36.9% |
2.7G |
2.9G |
+0.2G |
238s |
244s |
IQ1_M |
27.46 |
15.41 |
-43.9% |
2.2G |
2.5G |
+0.3G |
206s |
212s |
IQ1_S |
53.07 |
32.00 |
-39.7% |
2.1G |
2.4G |
+0.3G |
184s |
209s |
关键说明:
- PPL = 困惑度(越低越好)
- Δ PPL = 从标准量化到DynamicGate量化的百分比变化
- 速度 = 推理时间(CPU avx2,2048令牌上下文)
- 大小差异反映了混合量化的开销
模型格式选择
可根据 硬件能力 和 内存限制 选择合适的模型格式:
模型格式 |
精度 |
内存使用 |
设备要求 |
最佳用例 |
BF16 |
最高 |
高 |
支持BF16的GPU/CPU |
减少内存的高速推理 |
F16 |
高 |
高 |
支持FP16的设备 |
BF16不可用时的GPU推理 |
Q4_K |
中低 |
低 |
CPU或低VRAM设备 |
内存受限环境的最佳选择 |
Q6_K |
中 |
适中 |
内存较多的CPU |
量化模型中准确性较好的选择 |
Q8_0 |
高 |
适中 |
有足够VRAM的CPU或GPU |
量化模型中准确性最佳的选择 |
IQ3_XS |
极低 |
极低 |
超低内存设备 |
极致内存效率和低准确性 |
Q4_0 |
低 |
低 |
ARM或低内存设备 |
llama.cpp可针对ARM设备进行优化 |
包含文件及详情
GLM-4-32B-0414-bf16.gguf
:模型权重保存为 BF16 格式,适用于需要将模型重新量化为其他格式,且设备支持 BF16加速 的情况。
GLM-4-32B-0414-f16.gguf
:模型权重保存为 F16 格式,适用于设备支持 FP16,尤其是BF16不可用的情况。
GLM-4-32B-0414-bf16-q8_0.gguf
:输出和嵌入层 保持为 BF16,其他层量化为 Q8_0,适用于设备支持 BF16 且需要量化版本的情况。
GLM-4-32B-0414-f16-q8_0.gguf
:输出和嵌入层 保持为 F16,其他层量化为 Q8_0。
GLM-4-32B-0414-q4_k.gguf
:输出和嵌入层 量化为 Q8_0,其他层量化为 Q4_K,适合内存有限的 CPU推理。
GLM-4-32B-0414-q4_k_s.gguf
:最小的 Q4_K 变体,以牺牲一定准确性为代价减少内存使用,适用于 极低内存设置。
GLM-4-32B-0414-q6_k.gguf
:输出和嵌入层 量化为 Q8_0,其他层量化为 Q6_K。
GLM-4-32B-0414-q8_0.gguf
:完全 Q8 量化的模型,准确性更高,但需要 更多内存。
GLM-4-32B-0414-iq3_xs.gguf
:采用 IQ3_XS 量化,针对 极致内存效率 进行优化,适用于 超低内存设备。
GLM-4-32B-0414-iq3_m.gguf
:采用 IQ3_M 量化,提供 中等块大小 以提高准确性,适用于 低内存设备。
GLM-4-32B-0414-q4_0.gguf
:纯 Q4_0 量化,针对 ARM设备 进行优化,适用于 低内存环境,若追求更高准确性,可优先选择IQ4_NL。
模型测试与应用
- 测试模型:如果你觉得这些模型有用,可以帮忙测试 AI网络监控助手,该助手具备量子安全检查功能。
- 测试方法:选择一种 AI助手类型,如
TurboLLM
(GPT - 4o - mini)、HugLLM
(Hugginface开源模型)、TestLLM
(仅支持CPU的实验性模型)。
- 测试内容:主要测试小型开源模型在AI网络监控方面的性能,包括函数调用、自动化Nmap扫描、量子就绪检查和网络监控任务等。
- 不同助手特点
- TurboLLM:使用 gpt - 4o - mini,可创建自定义命令处理器以在免费网络监控代理上运行.NET代码,还能进行实时网络诊断和监控、安全审计、渗透测试等。可通过登录或 下载集成AI助手的免费网络监控代理 获取更多令牌。
- HugLLM:基于Hugging Face推理API运行的最新开源模型。
- TestLLM:当前的实验性模型(llama.cpp在2个CPU线程上运行),零配置设置,加载时间30秒(推理速度慢但无API成本),欢迎对边缘设备AI感兴趣的开发者参与协作。
📚 详细文档
动画生成
通过视频展示了 GLM-Z1-32B-0414
和 GLM-4-32B-0414
在动画生成方面的能力,包括Python程序实现球在旋转六边形内弹跳,以及HTML模拟小球从旋转六边形中心释放的场景。
网页设计
通过图片展示了 GLM-4-32B-0414
在网页设计方面的能力,如设计支持自定义函数绘图的绘图板,以及为移动机器学习平台设计UI等。
SVG生成
通过图片展示了 GLM-4-32B-0414
在SVG生成方面的能力,如创建江南水乡雾景、展示LLM训练过程等。
基于搜索的写作
使用特定的系统提示让模型根据搜索结果进行作答,使用时可通过 RAG
或 WebSearch
等方法获取搜索结果,并将其包装在 observation
中。
[
{
"role": "user",
"content": "Explore the common characteristics of children's literature, with a focus on its narrative techniques and thematic tendencies. This includes narrative techniques: common approaches in children's literature such as first-person, third-person, omniscient narrator, and interactive narration, and their influence on young readers. It also includes thematic tendencies: recurring themes in children's literature such as growth, adventure, friendship, and family, with an analysis of how these themes impact children's cognitive and emotional development. Additionally, other universal features such as the use of personification, repetitive language, symbolism and metaphor, and educational value should be considered. Please provide a detailed analytical report based on academic research, classic examples of children's literature, and expert o"
}
]
🔧 技术细节
超低比特量化方法
- 动态精度分配:前/后25%的层采用IQ4_XS(选定层),中间50%采用IQ2_XXS/IQ3_S(提高效率)。
- 关键组件保护:嵌入层/输出层使用Q5_K,与标准1 - 2比特量化相比,可减少38%的误差传播。
不同量化格式特点
- BF16:16位浮点格式,专为更快计算设计,保留良好精度,动态范围与FP32相似,但内存使用更低,适用于支持BF16加速的硬件。
- F16:16位浮点格式,精度较高,但取值范围小于BF16,适用于支持FP16加速的大多数设备。
- 量化模型:通过量化减少模型大小和内存使用,同时尽可能保留准确性。低比特模型(如Q4_K)适合内存使用最小化场景,但精度可能较低;高比特模型(如Q6_K、Q8_0)准确性更好,但需要更多内存。
📄 许可证
本模型采用MIT许可证。