🚀 Thinkless:大語言模型學會何時思考
Thinkless是一個可學習的框架,它使大語言模型能夠根據任務複雜度和模型自身能力,自適應地在短形式和長形式推理之間進行選擇。該框架在強化學習範式下進行訓練,能有效降低推理語言模型的計算成本。
🚀 快速開始
以下是使用Thinkless模型的快速示例代碼:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Vinnnf/Thinkless-1.5B-Warmup"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
instruction = "Please reason step by step, and put your final answer within \\boxed{}."
prompt = f"{instruction}\nThe arithmetic mean of 7, 2, $x$ and 10 is 9. What is the value of $x$?"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
think_mode = True
if think_mode:
text = f"{text}<think>"
else:
text = f"{text}<short>"
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
num_tokens = len(generated_ids[0])
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(text+response)
print(f"\nThink Mode: {think_mode}")
print(f"Number of tokens: {num_tokens}")
✨ 主要特性
我們提出了Thinkless框架,它具有以下特性:
- 可學習性:使大語言模型能夠學習根據任務複雜度和自身能力,自適應地選擇短形式或長形式推理。
- 強化學習訓練:在強化學習範式下進行訓練,使用兩個控制令牌(
<short>
用於簡潔響應,<think>
用於詳細推理)。
- 解耦優化算法:核心是解耦組相對策略優化(DeGRPO)算法,將混合推理的學習目標分解為控制令牌損失和響應損失,穩定訓練並防止崩潰。
- 降低計算成本:在多個基準測試中,能夠將長鏈思考的使用減少50% - 90%,顯著降低推理語言模型的計算成本。
📚 詳細文檔
簡介
⚠️ 重要提示
大語言模型能否學會何時思考?
我們提出了Thinkless,這是一個可學習的框架,它使大語言模型能夠根據任務複雜度和模型自身能力,自適應地在短形式和長形式推理之間進行選擇。Thinkless在強化學習範式下進行訓練,並使用兩個控制令牌:<short>
用於簡潔響應,<think>
用於詳細推理。我們方法的核心是解耦組相對策略優化(DeGRPO)算法,它將混合推理的學習目標分解為兩個部分:(1)控制令牌損失,用於控制推理模式的選擇;(2)響應損失,用於提高生成答案的準確性。這種解耦的公式使我們能夠對每個目標的貢獻進行細粒度控制,穩定訓練並有效防止普通GRPO中出現的崩潰現象。從經驗上看,在幾個基準測試中,如Minerva Algebra、MATH - 500和GSM8K,Thinkless能夠將長鏈思考的使用減少50% - 90%,顯著降低了推理語言模型的計算成本。
流程

相關鏈接
數據集和基礎模型
屬性 |
詳情 |
數據集 |
open-thoughts/OpenThoughts2-1M、Vinnnf/Hybrid-OpenThoughts2-1M-1.5B |
基礎模型 |
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B |
📄 許可證
本項目採用Apache - 2.0許可證。
📖 引用
如果您覺得這項工作有幫助,請引用以下文獻:
@article{fang2025thinkless,
title={Thinkless: LLM Learns When to Think},
author={Fang, Gongfan and Ma, Xinyin and Wang, Xinchao},
journal={arXiv preprint arXiv:2505.13379},
year={2025}
}