🚀 Ring-lite-linear-preview
Ring-lite-linear-preview是由InclusionAI提供並開源的混合線性MoE大語言模型,擁有171億參數,其中激活參數為30億。它基於混合線性注意力機制,是一款長推理模型,在推理過程中實現了接近線性的計算複雜度和接近常數的空間複雜度。
🚀 快速開始
以下是使用modelscope
調用聊天模型的代碼片段:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "inclusionAI/Ring-lite-linear-preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language models."
messages = [
{"role": "system", "content": "You are Ring, an assistant created by inclusionAI"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=8192
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
- 架構先進:Ring-lite-linear-preview是基於混合線性注意力的長推理模型,從採用基於softmax注意力架構的Ling-lite-0220轉換而來。
- 性能優越:在標準化推理基準測試中,該模型的性能與DeepSeek-R1-Distill-Qwen-7B相匹配,同時大幅降低了訓練和推理階段的計算開銷。
- 速度提升:在某些基於vLLM的生成速度測試中,與相同規模的softmax注意力模型(如Ling-lite)相比,吞吐量提高了一倍以上。
📦 安裝指南
📚 詳細文檔
模型下載
模型 |
總參數數量 |
激活參數數量 |
上下文長度 |
下載地址 |
Ring-lite-linear-preview |
171億 |
30億 |
64K |
🤗 HuggingFace |
評估指標
在推理能力評估方面,Ring-lite-linear-preview在AIME24測試中得分為55.0,在MATH - 500測試中得分為93.8。
模型 |
AIME24 |
MATH-500 |
GPQA-diamond |
LiveCodeBench |
DeepSeek-R1-Distill-Qwen-7B(報告值) |
55.5 |
92.8 |
49.1 |
37.6 |
DeepSeek-R1-Distill-Qwen-7B(復現) |
53.2 |
93.7 |
50.4 |
36.5 |
Ring-lite-distill-preview-Stage-1 |
54.2 |
93.5 |
47.5 |
32.9 |
Ring-lite-linear-preview |
55.0 |
93.8 |
46.5 |
29.8 |
推理速度
為了評估生成吞吐量,我們在單張NVIDIA A100 GPU上基於vLLM部署了Ring-lite-linear和基於softmax注意力的Ring-lite,並進行了兩組實驗:
- 長輸入評估:使用批量大小為1和TP = 1,測量不同輸入序列長度(從512到384k個令牌)下的首詞生成時間(TTFT)。在384k輸入長度下,Ring-lite-linear的TTFT比基於softmax注意力的模型快3.5倍。
- 長輸出評估:固定輸入序列長度為1,使用批量大小為64和TP = 1,測量生成不同長度輸出序列(從512到32k個令牌)所需的端到端(E2E)生成時間。在32k輸出長度下,Ring-lite-linear的吞吐量是基於softmax注意力的Ring-lite的2.2倍。
此外,為了說明推理速度的優勢,我們展示了在批量大小為64、輸出長度為16k的情況下,Ring-lite-linear-preview與基於softmax注意力的Ring-lite的對比(速度提升60倍)。可以觀察到,Ring-lite-linear-preview的KV緩存使用量幾乎是Ring-lite的1/6,端到端時間比Ring-lite減少了27.24%。
🔧 技術細節
更多詳細信息將在我們的技術報告中公佈 [TBD]
🔗 部署與數據集
📄 許可證
本代碼倉庫遵循MIT許可證。
📚 引用
[TBD]