Ring-lite-linear-preview（玲瓏線性預覽版）開源模型 - 支持長文本推理，計算和空間高效

首頁

Ring Lite Linear Preview

由inclusionAI開發

玲瓏線性預覽版是由InclusionAI開源發佈的混合線性稀疏大語言模型，總參數量17.1B，激活參數量3.0B。該模型基於混合線性注意力機制實現長文本推理，在推理過程中具備近線性計算複雜度與近恆定空間複雜度。

大型語言模型

Safetensors

支持多種語言開源協議:MIT #線性注意力 #長文本推理 #高效計算

下載量 25

發布時間 : 4/24/2025

模型概述

玲瓏線性預覽版是基於混合線性注意力機制的大語言模型，顯著降低了訓練和推理階段的算力開銷，在長文本推理場景下具有高效性能。

模型特點

高效長文本推理

基於混合線性注意力機制實現近線性計算複雜度與近恆定空間複雜度，顯著提升長文本推理效率

高性能推理

在AIME24測試中取得55.0分，在MATH-500測試中達到93.8分，性能與DeepSeek-R1-Distill-Qwen-7B相當

高吞吐量

在vLLM測試中，吞吐量達到同規模softmax注意力模型的兩倍以上

模型能力

長文本生成

中文文本理解

英文文本理解

數學推理

使用案例

教育

數學問題解答

解答覆雜數學問題

在MATH-500測試中達到93.8分

研究

長文本分析

處理和分析長文本內容

支持64K上下文長度

🚀 Ring-lite-linear-preview

Ring-lite-linear-preview是由InclusionAI提供並開源的混合線性MoE大語言模型，擁有171億參數，其中激活參數為30億。它基於混合線性注意力機制，是一款長推理模型，在推理過程中實現了接近線性的計算複雜度和接近常數的空間複雜度。

🚀 快速開始

以下是使用modelscope調用聊天模型的代碼片段：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "inclusionAI/Ring-lite-linear-preview"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Give me a short introduction to large language models."
messages = [
    {"role": "system", "content": "You are Ring, an assistant created by inclusionAI"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=8192
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主要特性

架構先進：Ring-lite-linear-preview是基於混合線性注意力的長推理模型，從採用基於softmax注意力架構的Ling-lite-0220轉換而來。
性能優越：在標準化推理基準測試中，該模型的性能與DeepSeek-R1-Distill-Qwen-7B相匹配，同時大幅降低了訓練和推理階段的計算開銷。
速度提升：在某些基於vLLM的生成速度測試中，與相同規模的softmax注意力模型（如Ling-lite）相比，吞吐量提高了一倍以上。

📦 安裝指南

transformers >= 4.48.3
flash-linear-attention >= 0.2.1

📚 詳細文檔

模型下載

模型	總參數數量	激活參數數量	上下文長度	下載地址
Ring-lite-linear-preview	171億	30億	64K	🤗 HuggingFace

評估指標

在推理能力評估方面，Ring-lite-linear-preview在AIME24測試中得分為55.0，在MATH - 500測試中得分為93.8。

模型	AIME24	MATH-500	GPQA-diamond	LiveCodeBench
DeepSeek-R1-Distill-Qwen-7B（報告值）	55.5	92.8	49.1	37.6
DeepSeek-R1-Distill-Qwen-7B（復現）	53.2	93.7	50.4	36.5
Ring-lite-distill-preview-Stage-1	54.2	93.5	47.5	32.9
Ring-lite-linear-preview	55.0	93.8	46.5	29.8

推理速度

為了評估生成吞吐量，我們在單張NVIDIA A100 GPU上基於vLLM部署了Ring-lite-linear和基於softmax注意力的Ring-lite，並進行了兩組實驗：

長輸入評估：使用批量大小為1和TP = 1，測量不同輸入序列長度（從512到384k個令牌）下的首詞生成時間（TTFT）。在384k輸入長度下，Ring-lite-linear的TTFT比基於softmax注意力的模型快3.5倍。
長輸出評估：固定輸入序列長度為1，使用批量大小為64和TP = 1，測量生成不同長度輸出序列（從512到32k個令牌）所需的端到端（E2E）生成時間。在32k輸出長度下，Ring-lite-linear的吞吐量是基於softmax注意力的Ring-lite的2.2倍。

此外，為了說明推理速度的優勢，我們展示了在批量大小為64、輸出長度為16k的情況下，Ring-lite-linear-preview與基於softmax注意力的Ring-lite的對比（速度提升60倍）。可以觀察到，Ring-lite-linear-preview的KV緩存使用量幾乎是Ring-lite的1/6，端到端時間比Ring-lite減少了27.24%。