🚀 Ring-lite-linear-preview
Ring-lite-linear-preview是由InclusionAI提供并开源的混合线性MoE大语言模型,拥有171亿参数,其中激活参数为30亿。它基于混合线性注意力机制,是一款长推理模型,在推理过程中实现了接近线性的计算复杂度和接近常数的空间复杂度。
🚀 快速开始
以下是使用modelscope
调用聊天模型的代码片段:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "inclusionAI/Ring-lite-linear-preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language models."
messages = [
{"role": "system", "content": "You are Ring, an assistant created by inclusionAI"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=8192
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
- 架构先进:Ring-lite-linear-preview是基于混合线性注意力的长推理模型,从采用基于softmax注意力架构的Ling-lite-0220转换而来。
- 性能优越:在标准化推理基准测试中,该模型的性能与DeepSeek-R1-Distill-Qwen-7B相匹配,同时大幅降低了训练和推理阶段的计算开销。
- 速度提升:在某些基于vLLM的生成速度测试中,与相同规模的softmax注意力模型(如Ling-lite)相比,吞吐量提高了一倍以上。
📦 安装指南
📚 详细文档
模型下载
模型 |
总参数数量 |
激活参数数量 |
上下文长度 |
下载地址 |
Ring-lite-linear-preview |
171亿 |
30亿 |
64K |
🤗 HuggingFace |
评估指标
在推理能力评估方面,Ring-lite-linear-preview在AIME24测试中得分为55.0,在MATH - 500测试中得分为93.8。
模型 |
AIME24 |
MATH-500 |
GPQA-diamond |
LiveCodeBench |
DeepSeek-R1-Distill-Qwen-7B(报告值) |
55.5 |
92.8 |
49.1 |
37.6 |
DeepSeek-R1-Distill-Qwen-7B(复现) |
53.2 |
93.7 |
50.4 |
36.5 |
Ring-lite-distill-preview-Stage-1 |
54.2 |
93.5 |
47.5 |
32.9 |
Ring-lite-linear-preview |
55.0 |
93.8 |
46.5 |
29.8 |
推理速度
为了评估生成吞吐量,我们在单张NVIDIA A100 GPU上基于vLLM部署了Ring-lite-linear和基于softmax注意力的Ring-lite,并进行了两组实验:
- 长输入评估:使用批量大小为1和TP = 1,测量不同输入序列长度(从512到384k个令牌)下的首词生成时间(TTFT)。在384k输入长度下,Ring-lite-linear的TTFT比基于softmax注意力的模型快3.5倍。
- 长输出评估:固定输入序列长度为1,使用批量大小为64和TP = 1,测量生成不同长度输出序列(从512到32k个令牌)所需的端到端(E2E)生成时间。在32k输出长度下,Ring-lite-linear的吞吐量是基于softmax注意力的Ring-lite的2.2倍。
此外,为了说明推理速度的优势,我们展示了在批量大小为64、输出长度为16k的情况下,Ring-lite-linear-preview与基于softmax注意力的Ring-lite的对比(速度提升60倍)。可以观察到,Ring-lite-linear-preview的KV缓存使用量几乎是Ring-lite的1/6,端到端时间比Ring-lite减少了27.24%。
🔧 技术细节
更多详细信息将在我们的技术报告中公布 [TBD]
🔗 部署与数据集
📄 许可证
本代码仓库遵循MIT许可证。
📚 引用
[TBD]