L

Light R1 32B

qihoo360によって開発
Light-R1-32BはQwen2.5-32B-Instructをベースに訓練された数学コンペ専用モデルで、カリキュラム式SFTとDPO技術によりDeepSeek-R1-Distillを超える性能を実現、トレーニングコストはわずか1000ドル。
ダウンロード数 1,082
リリース時間 : 3/4/2025

モデル概要

高難度数学コンペAIME問題解決に特化した32Bパラメータ大規模言語モデル。カリキュラム式教師あり微調整(SFT)と直接選好最適化(DPO)技術で訓練され、強力な長鎖思考能力と数学推論能力を備える。

モデル特徴

低コスト高効率トレーニング
カリキュラム式SFTとDPO技術により、わずか1000ドルのコストで70B規模モデルを超える性能を実現
数学コンペ特化最適化
AIMEなどの数学コンペ問題に特化した訓練を行い、AIME24/25で同類モデルを凌駕する性能
透明なトレーニングパス
全トレーニングデータセットとコードを公開し、再現可能な専門領域モデル訓練ソリューションを提供
強制思考メカニズム
ハードコードされた<think>タグでモデルの思考プロセスを強制発動し、問題解決の論理性を強化

モデル能力

高難度数学問題解決
多段階数学推論
コンペ級数学証明
長鎖論理思考

使用事例

教育分野
数学コンペ指導
AIMEなどの数学コンペ問題の解析と解答訓練に使用
AIME24スコア76.6(64回平均)
数学的思考訓練
学生の複雑な数学問題分析・解決能力育成を支援
研究分野
数学推論研究
数学推論能力研究のベンチマークモデルとして
GPQAダイヤモンド評価で61.8点を獲得
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase