T

Thinkless 1.5B RL DeepScaleR

Vinnnfによって開発
Thinklessは強化学習でトレーニングされた大規模言語モデルで、簡潔な回答または長鎖推論モードを適応的に選択でき、推論計算コストを大幅に削減します。
ダウンロード数 197
リリース時間 : 5/16/2025

モデル概要

Thinklessフレームワークは、解結合グループ相対戦略最適化アルゴリズム(DeGRPO)を使用して大規模言語モデルをトレーニングし、問題の複雑さに応じて簡潔な回答(<short>タグ)または長鎖推論(<think>タグ)モードを適応的に選択できるようにします。

モデル特徴

適応推論モード
モデルは問題の複雑さに応じて自動的に簡潔な回答または長鎖推論モードを選択し、長鎖推論の使用を50%-90%削減します。
解結合グループ相対戦略最適化
DeGRPOアルゴリズムを使用して混合推論目標を制御タグ損失と応答損失に分解し、元のGRPOの崩壊問題を回避します。
効率的な推論
正確性を維持しながら推論計算コストを大幅に削減し、迅速な応答が必要なアプリケーションシナリオに適しています。

モデル能力

数学的推論
問題解答
適応推論モード選択

使用事例

教育
数学問題解答
簡単な問題から複雑な問題まで解答し、問題の難易度に応じて自動的に簡潔な回答または詳細な推論モードを選択します。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークテストで良好なパフォーマンスを示しています
インテリジェントアシスタント
効率的な質問応答システム
問題の複雑さに応じて回答の長さを適応的に調整できるインテリジェントな質問応答システムを構築します。
不要な長鎖推論を減らし、応答速度を向上させます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase