D

Deepseek R1 0528 AWQ

由cognitivecomputations開發
DeepSeek R1 0528的AWQ量化模型,支持使用vLLM在8塊80GB GPU上以全上下文長度運行。
下載量 145
發布時間 : 6/1/2025

模型概述

這是一個經過AWQ量化的DeepSeek-R1-0528模型版本,修復了使用float16時的溢出問題,優化了在vLLM框架下的運行效率。

模型特點

AWQ量化優化
修改了部分模型代碼,修復了使用float16時的溢出問題,提高了模型運行效率。
全上下文長度支持
支持使用vLLM在8塊80GB GPU上以全上下文長度運行該模型。
高性能推理
針對A100 GPU優化了FlashMLA實現,在高上下文推理時比Triton更優。

模型能力

文本生成
長文本處理
多語言支持

使用案例

文本生成
長文本生成
支持長達63K輸入和2K輸出的文本生成任務。
在8x H100/H200配置下達到54.3 TPS
批量處理
支持批量處理32個請求,每個請求4K輸入和256輸出。
在8x H100/H200配置下達到30.1 TPS
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase