T

Thinkless 1.5B Warmup

由Vinnnf開發
無思框架(Thinkless)是一種可學習框架,使大模型能根據任務複雜度和自身能力,自適應選擇簡短推理或長鏈推理。
下載量 966
發布時間 : 5/16/2025

模型概述

該框架採用強化學習範式訓練,使用兩個控制符:<short>觸發簡略回答,<think>觸發詳細推理。方法核心是解耦分組相對策略優化算法(DeGRPO),將混合推理的學習目標分解為控制符損失和響應損失。

模型特點

自適應推理
根據任務複雜度自動選擇簡短推理或長鏈推理模式
解耦分組相對策略優化
使用DeGRPO算法將學習目標分解為控制符損失和響應損失
高效推理
在基準測試中能減少50%-90%的長鏈推理使用,顯著降低計算成本

模型能力

自適應文本生成
數學推理
問題解答

使用案例

教育
數學問題解答
解決代數、算術等數學問題
在Minerva代數、MATH-500和GSM8K等基準測試中表現良好
研究
推理模式研究
研究大模型的自適應推理能力
驗證了模型能有效學習何時使用長鏈推理
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase