P

PARD Llama 3.2 1B

由amd開發
PARD是一種高性能的推測解碼方法,能夠以低成本將自迴歸草稿模型轉換為並行草稿模型,顯著加速大語言模型推理。
下載量 2,219
發布時間 : 5/17/2025

模型概述

PARD通過低成本並行草稿模型自適應加速大語言模型推理,降低訓練和部署成本,同時保持高性能。

模型特點

低成本訓練
PARD能以極小的開銷將自迴歸草稿模型轉換為並行草稿模型,平均推理速度提升1.78倍。
泛化性強
單個PARD草稿模型可以加速整個目標模型家族,顯著降低部署複雜性和適配成本。
高性能
集成到優化推理框架中時,PARD的加速比高達4.08倍,達到每秒311.5個令牌的最先進速度。

模型能力

文本生成
大語言模型推理加速

使用案例

自然語言處理
大語言模型推理加速
使用PARD加速大語言模型的推理過程,提高生成效率。
加速比高達4.08倍,每秒生成311.5個令牌。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase