PARD Llama 3.2 1B
PARD is a high-performance speculative decoding method that can convert autoregressive draft models into parallel draft models at low cost, significantly accelerating the inference of large language models.
ダウンロード数 2,219
リリース時間 : 5/17/2025
モデル概要
PARD adaptively accelerates the inference of large language models through low-cost parallel draft models, reducing training and deployment costs while maintaining high performance.
モデル特徴
Low-cost training
PARD can convert autoregressive draft models into parallel draft models with minimal overhead, increasing the average inference speed by 1.78 times.
Strong generalization
A single PARD draft model can accelerate an entire target model family, significantly reducing deployment complexity and adaptation costs.
High performance
When integrated into an optimized inference framework, PARD's acceleration ratio is up to 4.08 times, reaching a state-of-the-art speed of 311.5 tokens per second.
モデル能力
Text generation
Acceleration of large language model inference
使用事例
Natural language processing
Acceleration of large language model inference
Use PARD to accelerate the inference process of large language models and improve generation efficiency.
The acceleration ratio is up to 4.08 times, generating 311.5 tokens per second.
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98