PARD Llama 3.2 1B
模型概述
PARD通過低成本並行草稿模型自適應加速大語言模型推理,降低訓練和部署成本,同時保持高性能。
模型特點
低成本訓練
PARD能以極小的開銷將自迴歸草稿模型轉換為並行草稿模型,平均推理速度提升1.78倍。
泛化性強
單個PARD草稿模型可以加速整個目標模型家族,顯著降低部署複雜性和適配成本。
高性能
集成到優化推理框架中時,PARD的加速比高達4.08倍,達到每秒311.5個令牌的最先進速度。
模型能力
文本生成
大語言模型推理加速
使用案例
自然語言處理
大語言模型推理加速
使用PARD加速大語言模型的推理過程,提高生成效率。
加速比高達4.08倍,每秒生成311.5個令牌。
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98