🚀 Light-R1: カリキュラムSFTとDPOにより1000ドルでゼロからR1-Distillを上回る
このプロジェクトは、Qwen2.5-32B-Instructをベースに、カリキュラムSFTとDPOを用いて訓練したLight-R1-32Bモデルを提供します。このモデルは、難解な数学コンペティションAIME24で76.6のスコアを達成し、既存のモデルを上回っています。
属性 |
详情 |
ベースモデル |
Qwen/Qwen2.5-32B-Instruct |
ライセンス |
apache-2.0 |
ライブラリ名 |
transformers |
パイプラインタグ |
text-generation |
技術レポート
GitHubページ
モデル |
訓練元 |
リリース日 |
AIME24 |
AIME25 |
DeepSeek-R1-Distill-Llama-70B |
Llama-3.3-70B-Instruct |
25.1.20 |
70.0 |
54.1 |
DeepSeek-R1-Distill-Qwen-32B |
Qwen2.5-32B |
25.1.20 |
72.6 |
54.9 |
LIMO (32B) |
Qwen2.5-32B-Instruct |
25.2.4 |
56.3 |
47.1 |
s1.1-32B |
Qwen2.5-32B-Instruct |
25.2.8 |
64.7 |
47.8 |
OpenThinker-32B |
Qwen2.5-32B-Instruct |
25.2.12 |
66.0 |
50.9 |
Light-R1-32B (当社のもの) 🤗 |
Qwen2.5-32B-Instruct |
25.3.4 |
76.6 |
64.6 |
多くのオープンソースの取り組みが72B以下のモデルでDeepSeek-R1を再現しようとしていますが、難解な数学コンペティションAIME24でDeepSeek-R1-Distill-Qwen-32Bのスコア72.6に匹敵するパフォーマンスを達成したものはありません。
私たちは、Qwen2.5-32B-Instructから訓練したLight-R1-32Bを導入します。このモデルはAIME24で76.6のスコアを達成します。長いCOTを持たないモデルから始め(R1の観点からはゼロから)、汚染除去された数学データで訓練することで、カリキュラムSFTとDPOを用いてDeepSeek-R1を蒸留し、AIME24と25でDeepSeek-R1-Distill-Qwen-32Bを上回り、モデルマージによりさらに改善しました。
さらに重要なことは、最先端のゼロから構築されたモデルであるLight-R1-32Bに加えて、カリキュラムSFTとDPOのすべての訓練データセットと、360-LLaMA-Factoryに基づく訓練コードも1日目に公開していることです。12台のH800マシンでの推定訓練時間は6時間以内で、費用は約1000ドルです。
私たちは、Light-R1が長いCOTを持つ強力なモデルをゼロから(長いCOTを持たないモデルから)訓練する実用的な方法を表していると考えています。私たちはRLを用いてモデルをさらに改善するために取り組んでいますが、カリキュラムSFTとDPOはパイプライン全体でより多くの制御を可能にし、コスト面でも有利です。
訓練と推論技術が急速に発展する中、近い将来によりアクセスしやすい長いCOTを持つモデルが登場することを期待しており、Light-R1は少なくとも特定のドメインでそれらを訓練するための検証済みの透明な方法を提供します。
こちらからWeChatグループに参加できます。
✨ リリース詳細
💡 推論に関する注意事項
Light-R1-32Bは、思考能力が数学データのみで訓練されているため、常に思考するわけではありません。
DeepSeekの提案に従い、モデルが出力を生成する直前のチャットテンプレートに<think>
をハードコードすることで、Light-R1に思考を強制しています。
推論にはvLLMまたはSGLangが推奨されます。Light-R1-32Bは、Qwenモデルのチャットテンプレートを継承し、特殊トークンとして<think>
と</think>
を追加し、思考を強制するために<think>
をハードコードしています。
🔧 カリキュラムSFTとDPOによる事後訓練
|
AIME24 pass@1 (64回平均) |
AIME25 |
GPQA Diamond |
Qwen2.5-32B-Instruct |
16.6 |
13.6 |
48.8 |
DeepSeek-R1-Distill-Qwen-32B |
72.6 |
54.9 |
62.1 |
Light-R1-SFT-stage1 |
69.0 |
57.4 |
64.3 |
Light-R1-SFT-stage2 |
73.0 |
64.3 |
60.6 |
Light-R1-DPO |
75.8 |
63.4 |
61.8 |
Light-R1-32B |
76.6 |
64.6 |
61.8 |
私たちは、SFTとDPOを用いたカリキュラム学習アプローチを採用しました。
数学データソース
訓練用の質問は、OpenR1-Math-220k、OpenThoughts-114k、LIMO、OpenMathInstruct-2、s1K-1.1、Omni-MATH、hendrycks_math、およびAIME(2023年まで)などの公開数学データセットから収集されました。これらの質問は、AIME24/25、MATH-500、GPQA Diamondなどの一般的な推論ベンチマークに対して汚染除去されました。
カリキュラムSFTとDPO
私たちは、これらの質問に対するDeepSeek-R1の回答を収集し、DeepScaleR-1.5B-Previewをサンプリングして検証と難易度を評価することでフィルタリングし、SFTステージ1用の76kのデータセットを作成しました。
SFTステージ1の後、主に76kのデータセットからフィルタリングされた、より難しいデータセットが作成され、SFTステージ2用に3kのデータが用意されました。
このステージ2のデータは、AIME 24/25でDeepSeek-R1-Distill-Qwen-32Bを72.6/54.9から0.779/0.675に向上させることができます。
その後、SFTステージ2の後のLight-R1-SFT-stage2の回答をサンプリングし、各質問に対する正解と不正解をフィルタリングし、検証結果とDeepSeek-R1の回答に基づいてDPOペアを作成しました。
DPO(またはNC)は、SFTステージ2の上で360-LLaMA-Factoryのシーケンス並列化を用いて実行されます。
上記の訓練ステップは非常に高速で、12台のH800マシンで6時間以内に完了すると推定されているため、費用は約1000ドルです。
モデルマージ
最後に、SFTステージ2、DPO、およびAIME24スコアが74.7の別のDPOバージョンのモデルをマージしました。2つのDPOバージョンの違いは、拒否された回答で特殊トークンをスキップするかどうかです。興味深いことに、結果として得られたバージョンも改善を示しています。
私たちのアプローチでは段階的な改善が見られ、各ステージの中間評価結果は上記の表に示されています。全く訓練していない科学的な質問のGPQA評価では、数学に特化した訓練によりある程度の忘却が見られますが、Light-R1-32Bは依然として強力な汎化能力を示しています。
🧹 データ汚染除去
私たちは、いくつかのオープンソースデータセットのデータ汚染を慎重に評価しました。事前訓練中にはある程度の汚染は避けられないかもしれませんが、事後訓練でベンチマークを比較する場合は許容できません。MATH-500は、数十の質問が同一または数値のみが変更されているため、やや損なわれています。AIME 24と25は無傷ですが、2023年までのAIMEデータを組み込む際には特別な注意が必要です。Light-R1-32Bは、正確なまたはN-gramマッチングによる徹底的な汚染除去を行っています。
📄 ライセンスと謝辞
このプロジェクトのすべての公開資料は、オープンソースライセンスであるApache 2.0に準拠しています。
私たちの訓練実験は、360-LLaMA-Factoryによってサポートされています。評価スクリプトは、DeepScaleRに基づいており、したがってverlにも依存しています。
Light-R1-32Bは、Qwen2.5-32B-Instructから訓練されています。訓練データは、様々な公開ソースから収集されています。
📖 引用
@misc{lightr1proj,
title={Light-R1: Surpassing R1-Distill from Scratch with $1000 through Curriculum SFT & DPO},
author={Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
year={2025},
eprint={},
archivePrefix={},
url={https://github.com/Qihoo360/Light-R1},
}