D

Deepseek R1 Distill Qwen 32B Quantized.w8a8

Developed by RedHatAI
DeepSeek-R1-Distill-Qwen-32B的量化版本,通过INT8权重量化和激活量化减少内存需求并提高计算效率
Downloads 3,572
Release Time : 2/5/2025

Model Overview

基于Qwen2ForCausalLM架构的量化大语言模型,适用于文本生成任务

Model Features

高效量化
采用INT8权重量化和激活量化,显著减少GPU内存需求和磁盘空间占用
高性能推理
通过vLLM后端支持高效部署,在单流部署中可实现1.8倍加速
高精度保持
量化后模型在多项基准测试中保持原始模型99%以上的准确率

Model Capabilities

文本生成
多轮对话
代码生成
文档摘要
问答系统

Use Cases

对话系统
多轮对话
支持复杂的多轮对话场景
在512/256令牌配置下达到325 QPS(A6000单卡)
代码相关
代码补全
支持编程语言的代码补全
HumanEval pass@1达到85.8%准确率
信息检索
RAG应用
适合检索增强生成场景
在1024/128令牌配置下达到622 QPS(A6000单卡)
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase