PARD-Llama-3.2-1B開源大語言模型 - 低成本加速推理，提升使用效率

首頁

PARD Llama 3.2 1B

由amd開發

PARD是一種高性能的推測解碼方法，能夠以低成本將自迴歸草稿模型轉換為並行草稿模型，顯著加速大語言模型推理。

大型語言模型

Transformers

開源協議:MIT #並行推測解碼 #低成本訓練 #大模型加速

下載量 2,219

發布時間 : 5/17/2025

模型概述

PARD通過低成本並行草稿模型自適應加速大語言模型推理，降低訓練和部署成本，同時保持高性能。

模型特點

低成本訓練

PARD能以極小的開銷將自迴歸草稿模型轉換為並行草稿模型，平均推理速度提升1.78倍。

泛化性強

單個PARD草稿模型可以加速整個目標模型家族，顯著降低部署複雜性和適配成本。

高性能

集成到優化推理框架中時，PARD的加速比高達4.08倍，達到每秒311.5個令牌的最先進速度。

模型能力

文本生成

大語言模型推理加速

使用案例

自然語言處理

大語言模型推理加速

使用PARD加速大語言模型的推理過程，提高生成效率。

加速比高達4.08倍，每秒生成311.5個令牌。

🚀 PARD：通過低成本並行草稿模型自適應加速大語言模型推理

PARD是一種高性能的推測解碼方法，它能夠以低成本將自迴歸草稿模型轉換為並行草稿模型。該方法為大語言模型推理帶來顯著加速，降低了模型訓練和部署成本。

| 論文 | 代碼庫 | 博客 |

🚀 快速開始

若想了解更多使用信息，請訪問 PARD 代碼庫。

✨ 主要特性

PARD具有以下顯著優勢：

低成本訓練：PARD能以極小的開銷將自迴歸（AR）草稿模型轉換為並行草稿模型。與純AR草稿模型相比，PARD平均推理速度提升1.78倍。通過引入條件丟棄令牌策略，PARD在保持相同精度水平的同時，將訓練效率提高了3倍。
泛化性強：由於其與目標無關的設計，單個PARD草稿模型可以加速整個目標模型家族。這與Medusa和EAGLE等依賴目標的方法形成鮮明對比，後者需要為每個新目標進行重新訓練或調整。因此，PARD顯著降低了部署複雜性和適配成本。
高性能：當集成到名為Transformers+的優化推理框架中時，PARD的加速比高達4.08倍，LLaMA3.1 8B達到了每秒311.5個令牌的最先進速度。當集成到vLLM中時，PARD的加速比高達3.06倍，比vLLM中的其他推測解碼方法快1.51倍。

AR和AR+分別代表使用Transformers和Transformers+的基線自迴歸生成。VSD表示普通推測解碼。PARD指本文提出的方法。

📦 模型權重

模型系列	模型名稱	下載地址
llama3	PARD-Llama-3.2-1B	🤗 HuggingFace
DSR Qwen	PARD-DeepSeek-R1-Distill-Qwen-1.5B	🤗 HuggingFace
Qwen	PARD-Qwen2.5-0.5B	🤗 HuggingFace

📄 許可證

本項目採用MIT許可證。

📚 引用

如果您在研究中使用了PARD，請引用以下論文：

@article{an2025pard,
  title={PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation},
  author={An, Zihao and Bai, Huajun and Liu, Ziqiong and Li, Dong and Barsoum, Emad},
  journal={arXiv preprint arXiv:2504.18583},
  year={2025}
}