Ring-lite-linear-preview（玲珑线性预览版）开源模型 - 支持长文本推理，计算和空间高效

首页

Ring Lite Linear Preview

由 inclusionAI 开发

玲珑线性预览版是由InclusionAI开源发布的混合线性稀疏大语言模型，总参数量17.1B，激活参数量3.0B。该模型基于混合线性注意力机制实现长文本推理，在推理过程中具备近线性计算复杂度与近恒定空间复杂度。

大型语言模型

Safetensors

支持多种语言开源协议:MIT #线性注意力 #长文本推理 #高效计算

下载量 25

发布时间 : 4/24/2025

模型简介

玲珑线性预览版是基于混合线性注意力机制的大语言模型，显著降低了训练和推理阶段的算力开销，在长文本推理场景下具有高效性能。

模型特点

高效长文本推理

基于混合线性注意力机制实现近线性计算复杂度与近恒定空间复杂度，显著提升长文本推理效率

高性能推理

在AIME24测试中取得55.0分，在MATH-500测试中达到93.8分，性能与DeepSeek-R1-Distill-Qwen-7B相当

高吞吐量

在vLLM测试中，吞吐量达到同规模softmax注意力模型的两倍以上

模型能力

长文本生成

中文文本理解

英文文本理解

数学推理

使用案例

教育

数学问题解答

解答复杂数学问题

在MATH-500测试中达到93.8分

研究

长文本分析

处理和分析长文本内容

支持64K上下文长度

🚀 Ring-lite-linear-preview

Ring-lite-linear-preview是由InclusionAI提供并开源的混合线性MoE大语言模型，拥有171亿参数，其中激活参数为30亿。它基于混合线性注意力机制，是一款长推理模型，在推理过程中实现了接近线性的计算复杂度和接近常数的空间复杂度。

🚀 快速开始

以下是使用modelscope调用聊天模型的代码片段：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "inclusionAI/Ring-lite-linear-preview"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Give me a short introduction to large language models."
messages = [
    {"role": "system", "content": "You are Ring, an assistant created by inclusionAI"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=8192
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主要特性

架构先进：Ring-lite-linear-preview是基于混合线性注意力的长推理模型，从采用基于softmax注意力架构的Ling-lite-0220转换而来。
性能优越：在标准化推理基准测试中，该模型的性能与DeepSeek-R1-Distill-Qwen-7B相匹配，同时大幅降低了训练和推理阶段的计算开销。
速度提升：在某些基于vLLM的生成速度测试中，与相同规模的softmax注意力模型（如Ling-lite）相比，吞吐量提高了一倍以上。

📦 安装指南

transformers >= 4.48.3
flash-linear-attention >= 0.2.1

📚 详细文档

模型下载

模型	总参数数量	激活参数数量	上下文长度	下载地址
Ring-lite-linear-preview	171亿	30亿	64K	🤗 HuggingFace

评估指标

在推理能力评估方面，Ring-lite-linear-preview在AIME24测试中得分为55.0，在MATH - 500测试中得分为93.8。

模型	AIME24	MATH-500	GPQA-diamond	LiveCodeBench
DeepSeek-R1-Distill-Qwen-7B（报告值）	55.5	92.8	49.1	37.6
DeepSeek-R1-Distill-Qwen-7B（复现）	53.2	93.7	50.4	36.5
Ring-lite-distill-preview-Stage-1	54.2	93.5	47.5	32.9
Ring-lite-linear-preview	55.0	93.8	46.5	29.8

推理速度

为了评估生成吞吐量，我们在单张NVIDIA A100 GPU上基于vLLM部署了Ring-lite-linear和基于softmax注意力的Ring-lite，并进行了两组实验：

长输入评估：使用批量大小为1和TP = 1，测量不同输入序列长度（从512到384k个令牌）下的首词生成时间（TTFT）。在384k输入长度下，Ring-lite-linear的TTFT比基于softmax注意力的模型快3.5倍。
长输出评估：固定输入序列长度为1，使用批量大小为64和TP = 1，测量生成不同长度输出序列（从512到32k个令牌）所需的端到端（E2E）生成时间。在32k输出长度下，Ring-lite-linear的吞吐量是基于softmax注意力的Ring-lite的2.2倍。

此外，为了说明推理速度的优势，我们展示了在批量大小为64、输出长度为16k的情况下，Ring-lite-linear-preview与基于softmax注意力的Ring-lite的对比（速度提升60倍）。可以观察到，Ring-lite-linear-preview的KV缓存使用量几乎是Ring-lite的1/6，端到端时间比Ring-lite减少了27.24%。