G

GLM Z1 32B 0414 GGUF

由Mungert開發
GLM-Z1-32B-0414是一個32B參數規模的多語言文本生成模型,支持中文和英文,採用MIT許可證發佈。
下載量 994
發布時間 : 4/25/2025

模型概述

該模型基於llama.cpp生成,支持文本生成任務,特別優化了超低比特量化技術,適用於內存受限的部署場景。

模型特點

IQ-DynamicGate超低比特量化
採用精度自適應量化技術,適用於1-2比特模型,在保持內存效率的同時顯著提升精度。
動態精度分配
前25%和後25%的層使用IQ4_XS,中間50%使用IQ2_XXS/IQ3_S,關鍵組件保護使用Q5_K。
高性能推理
支持BF16和F16格式,適用於不同硬件加速需求,提供高速推理能力。

模型能力

文本生成
多語言支持
超低比特量化推理

使用案例

內存受限部署
CPU推理
在內存有限的CPU設備上運行模型,適用於邊緣計算場景。
減少內存佔用,保持合理精度。
低顯存GPU推理
在顯存有限的GPU上運行量化模型,適配資源受限環境。
顯著降低顯存需求,提升推理速度。
研究與應用
超低比特量化研究
用於研究1-2比特量化技術的效果和優化方法。
提供多種量化變體,便於對比分析。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase