G

GLM 4 9B 0414 4bit DWQ

由 Narutoouz 开发
GLM-4-9B的高性能4位DWQ量化版本,专为苹果芯片优化,支持128K长上下文。
下载量 194
发布时间 : 6/1/2025

模型简介

本项目实现了对THUDM/GLM-4-9B-0414的高性能4位DWQ量化,在苹果设备上实现高效部署,支持长上下文生成任务。

模型特点

高性能4位量化
采用DWQ量化技术,在保持90-95%模型质量的同时大幅降低内存需求
苹果芯片优化
针对M系列芯片深度优化,在M4 Max上达到85.23 tok/s的推理速度
长上下文支持
支持128K tokens的超长上下文处理能力(需在LM Studio中手动配置)
内存高效
量化后仅需约8GB内存,比原模型减少70%内存占用

模型能力

长文本生成
多轮对话
知识问答
文本摘要

使用案例

内容创作
长篇文章生成
利用128K上下文能力生成连贯的长篇内容
保持上下文一致性,适合技术文档或故事创作
开发辅助
代码生成与补全
基于长上下文分析代码库并生成相关代码
在M4 Max上达到85+ tok/s的生成速度
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase