PARD-Llama-3.2-1B开源大语言模型 - 低成本加速推理，提升使用效率

首页

PARD Llama 3.2 1B

由 amd 开发

PARD是一种高性能的推测解码方法，能够以低成本将自回归草稿模型转换为并行草稿模型，显著加速大语言模型推理。

大型语言模型

Transformers

开源协议:MIT #并行推测解码 #低成本训练 #大模型加速

下载量 2,219

发布时间 : 5/17/2025

模型简介

PARD通过低成本并行草稿模型自适应加速大语言模型推理，降低训练和部署成本，同时保持高性能。

模型特点

低成本训练

PARD能以极小的开销将自回归草稿模型转换为并行草稿模型，平均推理速度提升1.78倍。

泛化性强

单个PARD草稿模型可以加速整个目标模型家族，显著降低部署复杂性和适配成本。

高性能

集成到优化推理框架中时，PARD的加速比高达4.08倍，达到每秒311.5个令牌的最先进速度。

模型能力

文本生成

大语言模型推理加速

使用案例

自然语言处理

大语言模型推理加速

使用PARD加速大语言模型的推理过程，提高生成效率。

加速比高达4.08倍，每秒生成311.5个令牌。

🚀 PARD：通过低成本并行草稿模型自适应加速大语言模型推理

PARD是一种高性能的推测解码方法，它能够以低成本将自回归草稿模型转换为并行草稿模型。该方法为大语言模型推理带来显著加速，降低了模型训练和部署成本。

| 论文 | 代码库 | 博客 |

🚀 快速开始

若想了解更多使用信息，请访问 PARD 代码库。

✨ 主要特性

PARD具有以下显著优势：

低成本训练：PARD能以极小的开销将自回归（AR）草稿模型转换为并行草稿模型。与纯AR草稿模型相比，PARD平均推理速度提升1.78倍。通过引入条件丢弃令牌策略，PARD在保持相同精度水平的同时，将训练效率提高了3倍。
泛化性强：由于其与目标无关的设计，单个PARD草稿模型可以加速整个目标模型家族。这与Medusa和EAGLE等依赖目标的方法形成鲜明对比，后者需要为每个新目标进行重新训练或调整。因此，PARD显著降低了部署复杂性和适配成本。
高性能：当集成到名为Transformers+的优化推理框架中时，PARD的加速比高达4.08倍，LLaMA3.1 8B达到了每秒311.5个令牌的最先进速度。当集成到vLLM中时，PARD的加速比高达3.06倍，比vLLM中的其他推测解码方法快1.51倍。

AR和AR+分别代表使用Transformers和Transformers+的基线自回归生成。VSD表示普通推测解码。PARD指本文提出的方法。

📦 模型权重

模型系列	模型名称	下载地址
llama3	PARD-Llama-3.2-1B	🤗 HuggingFace
DSR Qwen	PARD-DeepSeek-R1-Distill-Qwen-1.5B	🤗 HuggingFace
Qwen	PARD-Qwen2.5-0.5B	🤗 HuggingFace

📄 许可证

本项目采用MIT许可证。

📚 引用

如果您在研究中使用了PARD，请引用以下论文：

@article{an2025pard,
  title={PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation},
  author={An, Zihao and Bai, Huajun and Liu, Ziqiong and Li, Dong and Barsoum, Emad},
  journal={arXiv preprint arXiv:2504.18583},
  year={2025}
}