P

PARD Llama 3.2 1B

由 amd 开发
PARD是一种高性能的推测解码方法,能够以低成本将自回归草稿模型转换为并行草稿模型,显著加速大语言模型推理。
下载量 2,219
发布时间 : 5/17/2025

模型简介

PARD通过低成本并行草稿模型自适应加速大语言模型推理,降低训练和部署成本,同时保持高性能。

模型特点

低成本训练
PARD能以极小的开销将自回归草稿模型转换为并行草稿模型,平均推理速度提升1.78倍。
泛化性强
单个PARD草稿模型可以加速整个目标模型家族,显著降低部署复杂性和适配成本。
高性能
集成到优化推理框架中时,PARD的加速比高达4.08倍,达到每秒311.5个令牌的最先进速度。

模型能力

文本生成
大语言模型推理加速

使用案例

自然语言处理
大语言模型推理加速
使用PARD加速大语言模型的推理过程,提高生成效率。
加速比高达4.08倍,每秒生成311.5个令牌。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase