L

Light R1 32B

由qihoo360開發
Light-R1-32B是基於Qwen2.5-32B-Instruct訓練的數學競賽專用模型,通過課程式SFT與DPO技術實現超越DeepSeek-R1-Distill的性能,訓練成本僅1000美元。
下載量 1,082
發布時間 : 3/4/2025

模型概述

專注於高難度數學競賽AIME解題的32B參數大語言模型,採用課程式監督微調(SFT)和直接偏好優化(DPO)技術訓練,具備強效長鏈思維能力和數學推理能力。

模型特點

低成本高效訓練
通過課程式SFT與DPO技術,僅需1000美元成本即可實現超越70B規模模型的性能
數學競賽專項優化
針對AIME等數學競賽題目進行專項訓練,在AIME24/25上表現超越同類模型
透明訓練路徑
公開全部訓練數據集和代碼,提供可復現的專業領域模型訓練方案
強制思考機制
通過硬編碼<think>標記強制觸發模型思考過程,增強解題邏輯性

模型能力

高難度數學問題求解
多步驟數學推理
競賽級數學證明
長鏈邏輯思維

使用案例

教育領域
數學競賽輔導
用於AIME等數學競賽的題目解析和解題訓練
AIME24得分76.6(64次平均)
數學思維訓練
幫助學生培養複雜數學問題的分析和解決能力
研究領域
數學推理研究
作為數學推理能力研究的基準模型
在GPQA鑽石級評估中得分61.8
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase