D

Deepseek R1 Distill Llama 70B FP8 Dynamic

Developed by RedHatAI
DeepSeek-R1-Distill-Llama-70B的FP8量化版本,通過減少權重和激活的位數來優化推理性能
Downloads 45.77k
Release Time : 2/1/2025

Model Overview

這是DeepSeek-R1-Distill-Llama-70B的量化版本,通過將權重和激活量化為FP8數據類型,減少了磁盤大小和GPU內存需求,同時在推理性能上有顯著提升。

Model Features

FP8量化
權重和激活均使用FP8數據類型進行量化,減少50%的磁盤大小和GPU內存需求
高效推理
在單流部署中最高可實現1.4倍加速,在多流異步部署中最高可實現3.0倍加速
vLLM兼容
支持使用vLLM後端進行高效部署,提供OpenAI兼容的服務接口

Model Capabilities

文本生成
指令跟隨
多輪對話
代碼補全
文檔生成
RAG應用

Use Cases

對話系統
多輪對話
支持複雜的多輪對話場景
在512/256令牌配置下,A100x4硬件上達到8.90 QPS
代碼生成
代碼補全
支持編程語言的代碼補全功能
HumanEval測試中pass@1達到81.00%
信息檢索
RAG應用
支持基於檢索增強生成的問答系統
在1024/128令牌配置下,A100x4硬件上達到7.42 QPS
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase