Light-R1-14B-DSオープンソース数学モデル - 無料デプロイで様々な数学の難問解決を支援

ホーム

Light R1 14B DS

qihoo360によって開発

Light-R1-14B-DSは14Bパラメータの数学SOTAモデルで、強化学習で訓練され、AIME24/25およびGPQAベンチマークで優れた性能を発揮します。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #数学推論SOTA #強化学習最適化 #長鎖思考

ダウンロード数 2,890

リリース時間 : 3/12/2025

モデル概要

これはDeepSeek-R1-Distill-Qwen-14Bを基にした強化学習モデルで、数学推論と長鎖思考タスクに特化しており、複数の数学ベンチマークで14Bパラメータモデルの新記録を樹立しました。

モデル特徴

軽量計算力下の強化学習

中規模モデルで強化学習を成功裏に実施し、膨大な計算資源を必要としません

長鎖思考能力

既に長鎖思考能力を持つ微調整モデルで、応答長と報酬スコアの同時上昇が観察されました

数学推論SOTA

AIME24/25ベンチマークでそれぞれ74.0と60.2の画期的なスコアを達成

データ浄化

厳密なマッチングとN-gramマッチングを用いた厳格なデータ汚染検出を採用

モデル能力

数学推論

長鎖思考タスク処理

複雑問題解答

テキスト生成

使用事例

教育

数学競技問題解答

AIMEなどの数学競技問題を解答するために使用

AIME24/25ベンチマークで優れた性能を発揮

複雑数学問題解決

長鎖推論を必要とする複雑な数学問題を解決

GPQAベンチマークで特別な訓練なしに優れた性能を発揮

研究

強化学習研究

中規模モデルの強化学習研究事例として

既に長鎖思考能力を持つ微調整モデルで理想的な現象を初めて観察

🚀 Light-R1-14B-DS: SOTA 14B数学モデルと強化学習

Light-R1-14B-DSは、軽量な予算の下で、すでに長い連鎖思考（COT）で微調整された同サイズのモデルに対する最初のオープンソースの強化学習（RL）の試みです。また、AIME24とAIME25のスコアがそれぞれ74.0と60.2となり、多くの32Bモデルを上回る、最先端の14B数学モデルです。

プロパティ	詳細
ベースモデル	deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
ライセンス	apache-2.0
パイプラインタグ	text-generation
ライブラリ名	transformers

モデル	訓練元	リリース日	AIME24	AIME25	GPQA
OpenThinker-32B	Qwen2.5-32B-Instruct	25.2.12	66.0	50.9	61.6
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	25.1.20	69.7	50.2	59.1
Light-R1-14B-DS (当社) 🤗	DeepSeek-R1-Distill-Qwen-14B	25.3.12	74.0	60.2	61.7
Light-R1-32B (当社) 🤗	Qwen2.5-32B-Instruct	25.3.4	76.6	64.6	61.8

技術レポート

GitHubページ

wandbログ

最近の強化学習の研究では、ベースモデル（通常、名前に*-zeroが含まれる）や1.5Bモデル（興味深いことに、応答長が一度減少してから増加する）、または推定上非常に重い計算が必要なQwQ-32Bでの強化学習が成功しています。Light-R1-14B-DSは、DeepSeek-R1の再現と普及においてさらに一歩前進したものです。強化学習のトレーニング中に、期待される挙動、すなわちすでに長い連鎖思考で微調整されたモデル*における応答長と報酬スコアの同時増加が見られました（wandbログを参照）。

Light-R1-14B-DSはDeepSeek-R1-Distill-Qwen-14Bを元に、当社独自の長い連鎖思考の強化学習後学習を行い、14B数学モデルにおいて新たな最先端レベルを達成しました。AIME24とAIME25でそれぞれ74.0と60.2のスコアを獲得し、また、特定のトレーニングを行わずにGPQAでも良好な結果を示しました。当社は、このモデルを技術レポートとともにリリースすることを嬉しく思い、長い連鎖思考の強化学習後学習をさらに改善していきます。

🚀 クイックスタート

💻 使用例

DeepSeek-R1-Distill-Qwen-14Bと同じです。

📚 ドキュメント

データの汚染除去

当社は、いくつかのオープンソースデータセットのデータ汚染を注意深く評価しました。事前学習中にはある程度の汚染は避けられないかもしれませんが、事後学習でベンチマークを比較する際には許容できません。MATH-500は数十の問題が同一または数値のみが変更されており、多少の影響を受けています。AIME24とAIME25は無傷ですが、2023年までのAIMEデータを組み込む際には特別な注意が必要です。

Light-R1は、完全一致（数字を除く）とN-gram（N = 32）一致による徹底的な汚染除去を行いました。

📄 ライセンス

@misc{lightr1proj,
      title={Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond}, 
      author={Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
      year={2025},
      eprint={},
      archivePrefix={},
      url={https://github.com/Qihoo360/Light-R1}, 
}