Thinkless-1.5B-Warmup開源模型 - 無思框架讓大模型自適應長短推理

首頁

Thinkless 1.5B Warmup

由Vinnnf開發

無思框架（Thinkless）是一種可學習框架，使大模型能根據任務複雜度和自身能力，自適應選擇簡短推理或長鏈推理。

大型語言模型

Transformers

開源協議:Apache-2.0 #自適應推理 #強化學習優化 #數學推理

下載量 966

發布時間 : 5/16/2025

模型概述

該框架採用強化學習範式訓練，使用兩個控制符：<short>觸發簡略回答，<think>觸發詳細推理。方法核心是解耦分組相對策略優化算法（DeGRPO），將混合推理的學習目標分解為控制符損失和響應損失。

模型特點

自適應推理

根據任務複雜度自動選擇簡短推理或長鏈推理模式

解耦分組相對策略優化

使用DeGRPO算法將學習目標分解為控制符損失和響應損失

高效推理

在基準測試中能減少50%-90%的長鏈推理使用，顯著降低計算成本

模型能力

自適應文本生成

數學推理

問題解答

使用案例

教育

數學問題解答

解決代數、算術等數學問題

在Minerva代數、MATH-500和GSM8K等基準測試中表現良好

研究

推理模式研究

研究大模型的自適應推理能力

驗證了模型能有效學習何時使用長鏈推理

🚀 Thinkless：大語言模型學會何時思考

Thinkless是一個可學習的框架，它使大語言模型能夠根據任務複雜度和模型自身能力，自適應地在短形式和長形式推理之間進行選擇。該框架在強化學習範式下進行訓練，能有效降低推理語言模型的計算成本。

🚀 快速開始

以下是使用Thinkless模型的快速示例代碼：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Vinnnf/Thinkless-1.5B-Warmup"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

instruction = "Please reason step by step, and put your final answer within \\boxed{}."
prompt = f"{instruction}\nThe arithmetic mean of 7, 2, $x$ and 10 is 9. What is the value of $x$?"

messages = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

think_mode = True
if think_mode:
    text = f"{text}<think>"
else:
    text = f"{text}<short>"

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=4096
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
num_tokens = len(generated_ids[0])

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(text+response)
print(f"\nThink Mode: {think_mode}")
print(f"Number of tokens: {num_tokens}")

✨ 主要特性

我們提出了Thinkless框架，它具有以下特性：

可學習性：使大語言模型能夠學習根據任務複雜度和自身能力，自適應地選擇短形式或長形式推理。
強化學習訓練：在強化學習範式下進行訓練，使用兩個控制令牌（<short>用於簡潔響應，<think>用於詳細推理）。
解耦優化算法：核心是解耦組相對策略優化（DeGRPO）算法，將混合推理的學習目標分解為控制令牌損失和響應損失，穩定訓練並防止崩潰。
降低計算成本：在多個基準測試中，能夠將長鏈思考的使用減少50% - 90%，顯著降低推理語言模型的計算成本。

📚 詳細文檔

簡介

⚠️ 重要提示

大語言模型能否學會何時思考？

我們提出了Thinkless，這是一個可學習的框架，它使大語言模型能夠根據任務複雜度和模型自身能力，自適應地在短形式和長形式推理之間進行選擇。Thinkless在強化學習範式下進行訓練，並使用兩個控制令牌：<short>用於簡潔響應，<think>用於詳細推理。我們方法的核心是解耦組相對策略優化（DeGRPO）算法，它將混合推理的學習目標分解為兩個部分：（1）控制令牌損失，用於控制推理模式的選擇；（2）響應損失，用於提高生成答案的準確性。這種解耦的公式使我們能夠對每個目標的貢獻進行細粒度控制，穩定訓練並有效防止普通GRPO中出現的崩潰現象。從經驗上看，在幾個基準測試中，如Minerva Algebra、MATH - 500和GSM8K，Thinkless能夠將長鏈思考的使用減少50% - 90%，顯著降低了推理語言模型的計算成本。

流程

image/png

屬性	詳情
論文鏈接	ArXiv
GitHub倉庫	VainF/Thinkless
強化學習模型	Thinkless-1.5B-RL-DeepScaleR
預熱模型	Thinkless-1.5B-Warmup
預熱數據	Hybrid-OpenThoughts2-1M-1.5B
強化學習數據	agentica-org/DeepScaleR-Preview-Dataset

數據集和基礎模型

屬性	詳情
數據集	open-thoughts/OpenThoughts2-1M、Vinnnf/Hybrid-OpenThoughts2-1M-1.5B
基礎模型	deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

📄 許可證

本項目採用Apache - 2.0許可證。

📖 引用

如果您覺得這項工作有幫助，請引用以下文獻：

@article{fang2025thinkless,
  title={Thinkless: LLM Learns When to Think},
  author={Fang, Gongfan and Ma, Xinyin and Wang, Xinchao},
  journal={arXiv preprint arXiv:2505.13379},
  year={2025}
}