Light-R1-7B-DS開源數學模型 - 免費可用，在數學基準測試中表現出色！

首頁

Light R1 7B DS

由qihoo360開發

Light-R1-7B-DS是基於DeepSeek-R1-Distill-Qwen-7B微調的開源7B數學模型，在AIME24和25等數學基準測試中表現優異。

大型語言模型

Transformers

開源協議:Apache-2.0 #數學推理SOTA #小數據微調 #競賽題解答

下載量 1,414

發布時間 : 4/25/2025

模型概述

當前開源的7B數學模型中性能最優的模型，通過僅3K SFT數據微調實現SOTA級表現，特別擅長數學推理任務。

模型特點

高效微調

僅使用3K SFT數據微調即達到SOTA性能，證明數據的高效性

數學推理能力

在AIME24、AIME25和GPQA等數學基準測試中表現優異

數據去汙染

通過精確匹配和N-gram匹配進行了嚴格的數據去汙染處理

模型能力

數學問題求解

複雜推理

文本生成

使用案例

教育

數學競賽題解答

解答AIME等數學競賽題目

在AIME24測試中達到59.1分

數學教育輔助

幫助學生理解複雜數學概念

研究

數學推理研究

作為數學推理能力研究的基準模型

🚀 Light-R1-7B-DS：僅用3K數據打造的SOTA 7B數學模型

Light-R1-7B-DS是目前已知的最先進的開源7B數學模型，在AIME24和AIME25測試中分別取得了59.1和44.3的優異成績。並且，該模型在未進行任何特定訓練的情況下，在GPQA測試中也表現出色。

🚀 快速開始

使用方法與DeepSeek-R1-Distill-Qwen-7B相同。

✨ 主要特性

性能卓越：在AIME24、AIME25和GPQA測試中均取得了領先的成績。
數據高效：僅使用3K的SFT數據進行進一步訓練，充分展示了所發佈數據的強大適用性。

📚 詳細文檔

模型對比

模型	訓練基礎	發佈日期	AIME24	AIME25	GPQA
OpenThinker - 7B	Qwen2.5 - 7B - Instruct	25.2.12	31.3	N/A	42.4
DeepSeek - R1 - Distill - Qwen - 7B	Qwen2.5 - Math - 7B	25.1.20	55.5	39.2	49.1
[Light - R1 - 7B - DS (我們的模型) 🤗](https://huggingface.co/qihoo360/Light - R1 - 7B - DS)	DeepSeek - R1 - Distill - Qwen - 7B	25.3.12	59.1	44.3	49.4
[Light - R1 - 32B (我們的模型) 🤗](https://huggingface.co/qihoo360/Light - R1 - 32B)	Qwen2.5 - 32B - Instruct	25.3.4	76.6	64.6	61.8

技術報告與代碼倉庫

技術報告
[GitHub頁面](https://github.com/Qihoo360/Light - R1)

🔧 技術細節

數據去重

我們仔細評估了多個開源數據集的數據汙染情況。雖然在預訓練過程中某些汙染可能不可避免，但在訓練後的基準測試中，數據汙染是不可接受的。MATH - 500數據集存在一定程度的汙染，有數十個問題完全相同或僅數字不同。AIME 24和25數據集保持完整，但在整合2023年以前的AIME數據時，我們必須特別注意。

Light - R1採用了精確匹配（不包括數字）和N - gram（N = 32）匹配的方法進行了徹底的數據去重。

📄 許可證

本模型採用Apache 2.0許可證。

📚 引用

如果您使用了本模型，請引用以下文獻：

@misc{lightr1proj,
      title={Light - R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond}, 
      author={Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
      year={2025},
      eprint={},
      archivePrefix={},
      url={https://github.com/Qihoo360/Light - R1}, 
}