PARD-Llama-3.2-1Bオープンソース大規模言語モデル - 低コストで推論を高速化し、使用効率を向上させる

PARD Llama 3.2 1B

amdによって開発

PARD is a high-performance speculative decoding method that can convert autoregressive draft models into parallel draft models at low cost, significantly accelerating the inference of large language models.

大規模言語モデル

Transformers

オープンソースライセンス:MIT #Parallel speculative decoding #Low-cost training #Large model acceleration

ダウンロード数 2,219

リリース時間 : 5/17/2025

モデル概要

PARD adaptively accelerates the inference of large language models through low-cost parallel draft models, reducing training and deployment costs while maintaining high performance.

モデル特徴

Low-cost training

PARD can convert autoregressive draft models into parallel draft models with minimal overhead, increasing the average inference speed by 1.78 times.

Strong generalization

A single PARD draft model can accelerate an entire target model family, significantly reducing deployment complexity and adaptation costs.

High performance

When integrated into an optimized inference framework, PARD's acceleration ratio is up to 4.08 times, reaching a state-of-the-art speed of 311.5 tokens per second.

モデル能力

Text generation

Acceleration of large language model inference

使用事例

Natural language processing

Acceleration of large language model inference

Use PARD to accelerate the inference process of large language models and improve generation efficiency.

The acceleration ratio is up to 4.08 times, generating 311.5 tokens per second.

🚀 PARD：低コストの並列ドラフトモデル適応による大規模言語モデル推論の高速化

PARDは高性能な推測デコード手法で、低コストで自己回帰ドラフトモデルを並列ドラフトモデルに変換することができます。この手法は大規模言語モデルの推論を大幅に高速化し、モデルの訓練とデプロイコストを削減します。

| 論文 | コードリポジトリ | ブログ |

🚀 クイックスタート

詳細な使用方法については、PARD のコードリポジトリをご覧ください。

✨ 主な機能

PARDには以下のような顕著な利点があります：

低コスト訓練：PARDは、自動回帰（AR）ドラフトモデルを並列ドラフトモデルに最小限のコストで変換できます。純粋なARドラフトモデルと比較して、PARDの平均推論速度は1.78倍向上します。条件付きトークン破棄戦略を導入することで、PARDは同じ精度レベルを維持しながら訓練効率を3倍に向上させます。
汎化性が高い：目標非依存の設計により、単一のPARDドラフトモデルで目標モデルファミリー全体を高速化できます。これは、MedusaやEAGLEなどの目標依存型の方法とは対照的で、これらの方法では新しい目標ごとに再訓練または調整が必要です。したがって、PARDはデプロイの複雑さと適合コストを大幅に削減します。
高性能：Transformers+という最適化された推論フレームワークに統合すると、PARDの加速比は最大4.08倍に達し、LLaMA3.1 8Bは毎秒311.5トークンの最先端の速度を達成します。vLLMに統合すると、PARDの加速比は最大3.06倍に達し、vLLM内の他の推測デコード方法よりも1.51倍速くなります。

ARとAR+は、それぞれTransformersとTransformers+を使用したベースラインの自動回帰生成を表します。VSDは通常の推測デコードを表します。PARDは本論文で提案された手法を指します。

📦 モデルウェイト

モデルシリーズ	モデル名	ダウンロード先
llama3	PARD-Llama-3.2-1B	🤗 HuggingFace
DSR Qwen	PARD-DeepSeek-R1-Distill-Qwen-1.5B	🤗 HuggingFace
Qwen	PARD-Qwen2.5-0.5B	🤗 HuggingFace

📄 ライセンス

このプロジェクトはMITライセンスの下で提供されています。

📚 引用

もしあなたの研究でPARDを使用した場合は、以下の論文を引用してください：

@article{an2025pard,
  title={PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation},
  author={An, Zihao and Bai, Huajun and Liu, Ziqiong and Li, Dong and Barsoum, Emad},
  journal={arXiv preprint arXiv:2504.18583},
  year={2025}
}