D

Deepseek R1 Distill Llama 70B FP8 Dynamic

由RedHatAI開發
DeepSeek-R1-Distill-Llama-70B的FP8量化版本,通過減少權重和激活的位數來優化推理性能
下載量 45.77k
發布時間 : 2/1/2025

模型概述

這是DeepSeek-R1-Distill-Llama-70B的量化版本,通過將權重和激活量化為FP8數據類型,減少了磁盤大小和GPU內存需求,同時在推理性能上有顯著提升。

模型特點

FP8量化
權重和激活均使用FP8數據類型進行量化,減少50%的磁盤大小和GPU內存需求
高效推理
在單流部署中最高可實現1.4倍加速,在多流異步部署中最高可實現3.0倍加速
vLLM兼容
支持使用vLLM後端進行高效部署,提供OpenAI兼容的服務接口

模型能力

文本生成
指令跟隨
多輪對話
代碼補全
文檔生成
RAG應用

使用案例

對話系統
多輪對話
支持複雜的多輪對話場景
在512/256令牌配置下,A100x4硬件上達到8.90 QPS
代碼生成
代碼補全
支持編程語言的代碼補全功能
HumanEval測試中pass@1達到81.00%
信息檢索
RAG應用
支持基於檢索增強生成的問答系統
在1024/128令牌配置下,A100x4硬件上達到7.42 QPS
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase