D

Deepseek R1 Distill Llama 70B FP8 Dynamic

由 RedHatAI 开发
DeepSeek-R1-Distill-Llama-70B的FP8量化版本,通过减少权重和激活的位数来优化推理性能
下载量 45.77k
发布时间 : 2/1/2025

模型简介

这是DeepSeek-R1-Distill-Llama-70B的量化版本,通过将权重和激活量化为FP8数据类型,减少了磁盘大小和GPU内存需求,同时在推理性能上有显著提升。

模型特点

FP8量化
权重和激活均使用FP8数据类型进行量化,减少50%的磁盘大小和GPU内存需求
高效推理
在单流部署中最高可实现1.4倍加速,在多流异步部署中最高可实现3.0倍加速
vLLM兼容
支持使用vLLM后端进行高效部署,提供OpenAI兼容的服务接口

模型能力

文本生成
指令跟随
多轮对话
代码补全
文档生成
RAG应用

使用案例

对话系统
多轮对话
支持复杂的多轮对话场景
在512/256令牌配置下,A100x4硬件上达到8.90 QPS
代码生成
代码补全
支持编程语言的代码补全功能
HumanEval测试中pass@1达到81.00%
信息检索
RAG应用
支持基于检索增强生成的问答系统
在1024/128令牌配置下,A100x4硬件上达到7.42 QPS
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase