Light-R1-14B-DS開源數學模型 - 免費部署助力解決各類數學難題

首頁

Light R1 14B DS

由qihoo360開發

Light-R1-14B-DS是一個14B參數的數學SOTA模型，採用強化學習訓練，在AIME24/25和GPQA基準測試中表現優異。

大型語言模型

Transformers

開源協議:Apache-2.0 #數學推理SOTA #強化學習優化 #長鏈思維

下載量 2,890

發布時間 : 3/12/2025

模型概述

這是一個基於DeepSeek-R1-Distill-Qwen-14B的強化學習模型，專注於數學推理和長鏈思維任務，在多個數學基準測試中創下了14B參數模型的新記錄。

模型特點

輕量級算力下的強化學習

在中等規模模型上成功實施強化學習，無需海量算力資源

長鏈思維能力

在已具備長鏈思維能力的微調模型上觀察到響應長度與獎勵分數同步提升

數學推理SOTA

在AIME24/25基準測試中分別取得74.0和60.2的突破性成績

數據淨化

採用精確匹配和N元語法匹配進行嚴格的數據汙染檢測

模型能力

數學推理

長鏈思維任務處理

複雜問題解答

文本生成

使用案例

教育

數學競賽題解答

用於解答AIME等數學競賽題目

在AIME24/25基準測試中表現優異

複雜數學問題求解

解決需要長鏈推理的複雜數學問題

在GPQA基準上未經專項訓練即表現優異

研究

強化學習研究

作為中等規模模型強化學習研究的案例

首次在已具備長鏈思維能力的微調模型上觀察到理想現象

🚀 Light-R1-14B-DS：基於強化學習的SOTA 14B數學模型

Light-R1-14B-DS是首個在輕量級預算下，對相近規模且已完成長思維鏈微調的模型成功進行強化學習訓練的開源模型。它也是目前表現最優的14B數學模型，在AIME24和AIME25測試中分別取得了74.0和60.2的成績，超越了許多32B模型。

模型信息

屬性	詳情
基礎模型	deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
許可證	apache-2.0
任務類型	文本生成
庫名稱	transformers

模型對比

模型	訓練基礎	發佈日期	AIME24	AIME25	GPQA
OpenThinker-32B	Qwen2.5-32B-Instruct	25.2.12	66.0	50.9	61.6
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	25.1.20	69.7	50.2	59.1
Light-R1-14B-DS (我們的模型) 🤗	DeepSeek-R1-Distill-Qwen-14B	25.3.12	74.0	60.2	61.7
Light-R1-32B (我們的模型) 🤗	Qwen2.5-32B-Instruct	25.3.4	76.6	64.6	61.8

🚀 快速開始

使用方法

使用方法與DeepSeek-R1-Distill-Qwen-14B相同。

✨ 主要特性

Light-R1-14B-DS在強化學習訓練方面取得了重要進展，它標誌著在復現和推廣DeepSeek-R1上邁出了重要一步。在訓練過程中，我們觀察到了預期的效果：在一個已經完成長思維鏈微調的模型上，響應長度和獎勵分數同時增加（詳見wandb日誌）。

該模型基於DeepSeek-R1-Distill-Qwen-14B，經過我們的長思維鏈強化學習後訓練，在14B數學模型中達到了新的最優水平，在AIME 24和25測試中分別取得了74.0和60.2的成績。此外，Light-R1-14B-DS在未進行任何特定訓練的情況下，在GPQA測試中也表現出色。

📚 詳細文檔

數據去重

我們仔細評估了幾個開源數據集的數據汙染情況。雖然在預訓練過程中某些汙染可能不可避免，但在後續訓練中，在基準測試上進行比較時出現汙染是不可接受的。

MATH-500數據集存在一定程度的汙染，有數十個問題完全相同或僅數字不同。AIME 24和25數據集保持完整，但在整合2023年以前的AIME數據時，我們必須特別注意。

Light-R1進行了徹底的數據去重，採用了精確匹配（不包括數字）和N-gram（N=32）匹配的方法。

📄 許可證

本項目採用apache-2.0許可證。

📚 引用

如果您使用了本項目，請引用以下文獻：

@misc{lightr1proj,
      title={Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond}, 
      author={Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
      year={2025},
      eprint={},
      archivePrefix={},
      url={https://github.com/Qihoo360/Light-R1}, 
}