Light-R1-32Bオープンソース数学競技モデル - 低コストトレーニングで同類を超える高パフォーマンスを実現

Light R1 32B

qihoo360によって開発

Light-R1-32BはQwen2.5-32B-Instructをベースに訓練された数学コンペ専用モデルで、カリキュラム式SFTとDPO技術によりDeepSeek-R1-Distillを超える性能を実現、トレーニングコストはわずか1000ドル。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #数学コンペ最適化 #低コスト高効率トレーニング #カリキュラム式SFT-DPO

ダウンロード数 1,082

リリース時間 : 3/4/2025

モデル概要

高難度数学コンペAIME問題解決に特化した32Bパラメータ大規模言語モデル。カリキュラム式教師あり微調整(SFT)と直接選好最適化(DPO)技術で訓練され、強力な長鎖思考能力と数学推論能力を備える。

モデル特徴

低コスト高効率トレーニング

カリキュラム式SFTとDPO技術により、わずか1000ドルのコストで70B規模モデルを超える性能を実現

数学コンペ特化最適化

AIMEなどの数学コンペ問題に特化した訓練を行い、AIME24/25で同類モデルを凌駕する性能

透明なトレーニングパス

全トレーニングデータセットとコードを公開し、再現可能な専門領域モデル訓練ソリューションを提供

強制思考メカニズム

ハードコードされた<think>タグでモデルの思考プロセスを強制発動し、問題解決の論理性を強化

モデル能力

高難度数学問題解決

多段階数学推論

コンペ級数学証明

長鎖論理思考

使用事例

教育分野

数学コンペ指導

AIMEなどの数学コンペ問題の解析と解答訓練に使用

AIME24スコア76.6(64回平均)

数学的思考訓練

学生の複雑な数学問題分析・解決能力育成を支援

研究分野

数学推論研究

数学推論能力研究のベンチマークモデルとして

GPQAダイヤモンド評価で61.8点を獲得

🚀 Light-R1: カリキュラムSFTとDPOにより1000ドルでゼロからR1-Distillを上回る

このプロジェクトは、Qwen2.5-32B-Instructをベースに、カリキュラムSFTとDPOを用いて訓練したLight-R1-32Bモデルを提供します。このモデルは、難解な数学コンペティションAIME24で76.6のスコアを達成し、既存のモデルを上回っています。

属性	详情
ベースモデル	Qwen/Qwen2.5-32B-Instruct
ライセンス	apache-2.0
ライブラリ名	transformers
パイプラインタグ	text-generation

技術レポート

GitHubページ

モデル	訓練元	リリース日	AIME24	AIME25
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	25.1.20	70.0	54.1
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	25.1.20	72.6	54.9
LIMO (32B)	Qwen2.5-32B-Instruct	25.2.4	56.3	47.1
s1.1-32B	Qwen2.5-32B-Instruct	25.2.8	64.7	47.8
OpenThinker-32B	Qwen2.5-32B-Instruct	25.2.12	66.0	50.9
Light-R1-32B (当社のもの) 🤗	Qwen2.5-32B-Instruct	25.3.4	76.6	64.6

多くのオープンソースの取り組みが72B以下のモデルでDeepSeek-R1を再現しようとしていますが、難解な数学コンペティションAIME24でDeepSeek-R1-Distill-Qwen-32Bのスコア72.6に匹敵するパフォーマンスを達成したものはありません。

私たちは、Qwen2.5-32B-Instructから訓練したLight-R1-32Bを導入します。このモデルはAIME24で76.6のスコアを達成します。長いCOTを持たないモデルから始め（R1の観点からはゼロから）、汚染除去された数学データで訓練することで、カリキュラムSFTとDPOを用いてDeepSeek-R1を蒸留し、AIME24と25でDeepSeek-R1-Distill-Qwen-32Bを上回り、モデルマージによりさらに改善しました。

さらに重要なことは、最先端のゼロから構築されたモデルであるLight-R1-32Bに加えて、カリキュラムSFTとDPOのすべての訓練データセットと、360-LLaMA-Factoryに基づく訓練コードも1日目に公開していることです。12台のH800マシンでの推定訓練時間は6時間以内で、費用は約1000ドルです。

私たちは、Light-R1が長いCOTを持つ強力なモデルをゼロから（長いCOTを持たないモデルから）訓練する実用的な方法を表していると考えています。私たちはRLを用いてモデルをさらに改善するために取り組んでいますが、カリキュラムSFTとDPOはパイプライン全体でより多くの制御を可能にし、コスト面でも有利です。

訓練と推論技術が急速に発展する中、近い将来によりアクセスしやすい長いCOTを持つモデルが登場することを期待しており、Light-R1は少なくとも特定のドメインでそれらを訓練するための検証済みの透明な方法を提供します。

こちらからWeChatグループに参加できます。

✨ リリース詳細

🤗 huggingfaceにあるLight-R1-32Bモデル
カリキュラム 🤗SFT と 🤗DPO データセット
360-LLaMA-Factoryに基づく訓練スクリプト train-scripts
DeepScaleRに基づく評価コード deepscaler-release
- Light-R1-32Bの評価ログ（例: AIME24）
- 報告されたすべてのスコアは64回の実行の平均です。公開モデルのスコアは評価結果から取得され、存在しない場合は64回の実行の平均です。16回の実行の平均では、異なる実行間で2 - 3ポイントの偏差が生じることがあることがわかりました。
技術レポートは作成中です。

💡 推論に関する注意事項

Light-R1-32Bは、思考能力が数学データのみで訓練されているため、常に思考するわけではありません。

DeepSeekの提案に従い、モデルが出力を生成する直前のチャットテンプレートに<think>をハードコードすることで、Light-R1に思考を強制しています。

推論にはvLLMまたはSGLangが推奨されます。Light-R1-32Bは、Qwenモデルのチャットテンプレートを継承し、特殊トークンとして<think>と</think>を追加し、思考を強制するために<think>をハードコードしています。

🔧 カリキュラムSFTとDPOによる事後訓練

	AIME24 pass@1 (64回平均)	AIME25	GPQA Diamond
Qwen2.5-32B-Instruct	16.6	13.6	48.8
DeepSeek-R1-Distill-Qwen-32B	72.6	54.9	62.1
Light-R1-SFT-stage1	69.0	57.4	64.3
Light-R1-SFT-stage2	73.0	64.3	60.6
Light-R1-DPO	75.8	63.4	61.8
Light-R1-32B	76.6	64.6	61.8

私たちは、SFTとDPOを用いたカリキュラム学習アプローチを採用しました。

数学データソース

訓練用の質問は、OpenR1-Math-220k、OpenThoughts-114k、LIMO、OpenMathInstruct-2、s1K-1.1、Omni-MATH、hendrycks_math、およびAIME（2023年まで）などの公開数学データセットから収集されました。これらの質問は、AIME24/25、MATH-500、GPQA Diamondなどの一般的な推論ベンチマークに対して汚染除去されました。

カリキュラムSFTとDPO

私たちは、これらの質問に対するDeepSeek-R1の回答を収集し、DeepScaleR-1.5B-Previewをサンプリングして検証と難易度を評価することでフィルタリングし、SFTステージ1用の76kのデータセットを作成しました。

SFTステージ1の後、主に76kのデータセットからフィルタリングされた、より難しいデータセットが作成され、SFTステージ2用に3kのデータが用意されました。

このステージ2のデータは、AIME 24/25でDeepSeek-R1-Distill-Qwen-32Bを72.6/54.9から0.779/0.675に向上させることができます。

その後、SFTステージ2の後のLight-R1-SFT-stage2の回答をサンプリングし、各質問に対する正解と不正解をフィルタリングし、検証結果とDeepSeek-R1の回答に基づいてDPOペアを作成しました。

DPO（またはNC）は、SFTステージ2の上で360-LLaMA-Factoryのシーケンス並列化を用いて実行されます。

上記の訓練ステップは非常に高速で、12台のH800マシンで6時間以内に完了すると推定されているため、費用は約1000ドルです。

モデルマージ

最後に、SFTステージ2、DPO、およびAIME24スコアが74.7の別のDPOバージョンのモデルをマージしました。2つのDPOバージョンの違いは、拒否された回答で特殊トークンをスキップするかどうかです。興味深いことに、結果として得られたバージョンも改善を示しています。

私たちのアプローチでは段階的な改善が見られ、各ステージの中間評価結果は上記の表に示されています。全く訓練していない科学的な質問のGPQA評価では、数学に特化した訓練によりある程度の忘却が見られますが、Light-R1-32Bは依然として強力な汎化能力を示しています。

🧹 データ汚染除去

私たちは、いくつかのオープンソースデータセットのデータ汚染を慎重に評価しました。事前訓練中にはある程度の汚染は避けられないかもしれませんが、事後訓練でベンチマークを比較する場合は許容できません。MATH-500は、数十の質問が同一または数値のみが変更されているため、やや損なわれています。AIME 24と25は無傷ですが、2023年までのAIMEデータを組み込む際には特別な注意が必要です。Light-R1-32Bは、正確なまたはN-gramマッチングによる徹底的な汚染除去を行っています。

📄 ライセンスと謝辞

このプロジェクトのすべての公開資料は、オープンソースライセンスであるApache 2.0に準拠しています。

私たちの訓練実験は、360-LLaMA-Factoryによってサポートされています。評価スクリプトは、DeepScaleRに基づいており、したがってverlにも依存しています。

Light-R1-32Bは、Qwen2.5-32B-Instructから訓練されています。訓練データは、様々な公開ソースから収集されています。

📖 引用

@misc{lightr1proj,
      title={Light-R1: Surpassing R1-Distill from Scratch with $1000 through Curriculum SFT & DPO}, 
      author={Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
      year={2025},
      eprint={},
      archivePrefix={},
      url={https://github.com/Qihoo360/Light-R1}, 
}