T

Thinkless 1.5B RL DeepScaleR

由Vinnnf開發
Thinkless是一個通過強化學習訓練的大語言模型,能夠自適應選擇簡答或長鏈推理模式,顯著降低推理計算成本。
下載量 197
發布時間 : 5/16/2025

模型概述

Thinkless框架通過解耦分組相對策略優化算法(DeGRPO)訓練大語言模型,使其能夠根據問題複雜度自適應選擇簡答(<short>標記)或長鏈推理(<think>標記)模式。

模型特點

自適應推理模式
模型能根據問題複雜度自動選擇簡答或長鏈推理模式,減少50%-90%的長鏈推理使用。
解耦分組相對策略優化
採用DeGRPO算法將混合推理目標分解為控制標記損失和響應損失,避免原始GRPO的坍縮問題。
高效推理
在保持準確性的同時顯著降低推理計算成本,適用於需要快速響應的應用場景。

模型能力

數學推理
問題解答
自適應推理模式選擇

使用案例

教育
數學問題解答
解答從簡單到複雜的數學問題,根據問題難度自動選擇簡答或詳細推理模式。
在Minerva Algebra、MATH-500和GSM8K等基準測試中表現良好
智能助手
高效問答系統
構建能夠根據問題複雜度自適應調整回答長度的智能問答系統。
減少不必要的長鏈推理,提高響應速度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase