Thinkless-1.5B-Warmupオープンソースモデル - 無思フレームワークで大規模モデルの長短推論を自動適応化

Home

Thinkless 1.5B Warmup

Developed by Vinnnf

無思フレームワーク（Thinkless）は学習可能なフレームワークで、大規模モデルがタスクの複雑さと自身の能力に基づいて、短い推論または長い連鎖推論を適応的に選択できるようにします。

大規模言語モデル

Transformers

Open Source License:Apache-2.0 #適応推論 #強化学習最適化 #数学的推論

Downloads 966

Release Time : 5/16/2025

Model Overview

このフレームワークは強化学習パラダイムで訓練され、2つの制御トークンを使用します：<short>は簡潔な回答をトリガーし、<think>は詳細な推論をトリガーします。方法の核心は、分離グループ相対戦略最適化アルゴリズム（DeGRPO）で、混合推論の学習目標を制御トークンの損失と応答損失に分解します。

Model Features

適応推論

タスクの複雑さに応じて自動的に短い推論または長い連鎖推論モードを選択

分離グループ相対戦略最適化

DeGRPOアルゴリズムを使用して学習目標を制御トークン損失と応答損失に分解

効率的な推論

ベンチマークテストで50%-90%の長い連鎖推論の使用を削減し、計算コストを大幅に削減

Model Capabilities

適応的テキスト生成

数学的推論

問題解答

Use Cases

教育

数学問題解答

代数、算術などの数学的問題を解決

Minerva代数、MATH-500、GSM8Kなどのベンチマークテストで良好なパフォーマンス

研究

推論モード研究

大規模モデルの適応推論能力を研究

モデルが長い連鎖推論を使用するタイミングを効果的に学習できることを検証

🚀 Thinkless: LLM Learns When to Think

Thinklessは、タスクの複雑さとモデルの能力に基づいて、LLMが短形式と長形式の推論を適応的に選択できる学習可能なフレームワークです。強化学習パラダイムで訓練され、推論モードの選択と回答の精度向上を実現します。

image/png

属性	详情
論文リンク	ArXiv
GitHub	VainF/Thinkless
RLモデル	Thinkless-1.5B-RL-DeepScaleR
ウォームアップモデル	Thinkless-1.5B-Warmup
ウォームアップ用データ	Hybrid-OpenThoughts2-1M-1.5B
RL用データ	agentica-org/DeepScaleR-Preview-Dataset

✨ 主な機能

⚠️ 重要なメモ

大規模言語モデル（LLM）は、いつ思考すべきかを学習できるでしょうか？

我々はThinklessという学習可能なフレームワークを提案しています。これは、タスクの複雑さとモデルの能力の両方に基づいて、LLMが短形式と長形式の推論を適応的に選択できるようにします。Thinklessは強化学習パラダイムの下で訓練され、簡潔な応答用の<short>と詳細な推論用の<think>という2つの制御トークンを使用します。我々の方法の核心は、Decoupled Group Relative Policy Optimization (DeGRPO)アルゴリズムで、ハイブリッド推論の学習目標を2つの要素に分解します。(1)推論モードの選択を管理する制御トークン損失、(2)生成された回答の精度を向上させる応答損失です。この分離された定式化により、各目標の寄与を細かく制御でき、トレーニングを安定させ、バニラGRPOで見られる崩壊を効果的に防ぎます。実験的に、Minerva Algebra、MATH - 500、GSM8Kなどのいくつかのベンチマークで、Thinklessは長鎖思考の使用を50％ - 90％削減でき、推論言語モデルの計算コストを大幅に削減します。

🚀 クイックスタート

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Vinnnf/Thinkless-1.5B-Warmup"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

instruction = "Please reason step by step, and put your final answer within \\boxed{}."
prompt = f"{instruction}\nThe arithmetic mean of 7, 2, $x$ and 10 is 9. What is the value of $x$?"

messages = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

think_mode = True
if think_mode:
    text = f"{text}<think>"
else:
    text = f"{text}<short>"

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=4096
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
num_tokens = len(generated_ids[0])

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(text+response)
print(f"\nThink Mode: {think_mode}")
print(f"Number of tokens: {num_tokens}")

📚 ドキュメント

パイプライン

image/png

📄 ライセンス

このプロジェクトはApache - 2.0ライセンスの下で提供されています。

引用

この研究が役に立った場合、以下のように引用してください。

@article{fang2025thinkless,
  title={Thinkless: LLM Learns When to Think},
  author={Fang, Gongfan and Ma, Xinyin and Wang, Xinchao},
  journal={arXiv preprint arXiv:2505.13379},
  year={2025}
}