Light-R1-32B-DSオープンソース数学モデル - SOTAレベルに近く、少量のデータで微調整して高パフォーマンスを実現

ホーム

Light R1 32B DS

qihoo360によって開発

Light-R1-32B-DSはSOTAに近いレベルの32B数学モデルで、DeepSeek-R1-Distill-Qwen-32Bをファインチューニングし、わずか3KのSFTデータで高性能を実現しました。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #少数ショットファインチューニング #数学的推論 #長鎖思考トレーニング

ダウンロード数 1,136

リリース時間 : 3/12/2025

モデル概要

このモデルは高性能な32Bパラメータ規模の大規模言語モデルで、AIME24および25テストで優れた成績を収め、複雑なテキスト生成タスクに適しています。

モデル特徴

効率的なファインチューニング

わずか3KのSFTデータでSOTAに近い性能を実現

厳格なデータ浄化

正確なマッチングとN-gram技術を用いたデータ汚染除去処理

高性能

AIME24および25テストでそれぞれ78.1点と65.9点の高得点を獲得

モデル能力

複雑なテキスト生成

長鎖思考推論

数学問題解答

使用事例

学術研究

数学競技問題解答

AIMEなどの数学競技問題の解答に使用

AIME24テストで78.1点を獲得

教育支援

複雑問題解答

学生が複雑な数学概念と解法を理解するのを支援

🚀 Light-R1-32B-DS: わずか3KのデータでほぼSOTAレベルの32B数学モデル

Light-R1-32B-DSは、AIME24とAIME25のスコアがそれぞれ78.1と65.9という、ほぼSOTAレベルの32B数学モデルです。このモデルはDeepSeek-R1-Distill-Qwen-32Bをベースに、公開した3KのSFTデータのみを使ってさらに学習させたもので、公開データの強力な適用性を示しています。

論文: https://huggingface.co/papers/2503.10460

モデル	学習元	リリース日	AIME24	AIME25	GPQA
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5 - 32B	25.1.20	72.6	54.9	62.1
TinyR1 - 32B - Preview	DeepSeek-R1-Distill-Qwen-32B	25.2.25	77.1	65.9	65.0
Light-R1-32B-DS (当社のモデル) 🤗	DeepSeek-R1-Distill-Qwen-32B	25.3.12	78.1	65.9	68.0
Light-R1-32B (当社のモデル) 🤗	Qwen2.5 - 32B - Instruct	25.3.4	76.6	64.6	61.8
QwQ - 32B	N/A	25.3.6	78.5	69.3	67.7

技術レポート

GitHubページ

🚀 クイックスタート

Light-R1-32B-DSの使用方法は、DeepSeek-R1-Distill-Qwen-32Bと同じです。

📚 ドキュメント

データの汚染除去

我々はいくつかのオープンソースデータセットのデータ汚染について慎重に評価しました。事前学習中にはある程度の汚染は避けられないかもしれませんが、事後学習でベンチマークを比較する際には許容できません。MATH - 500には数十の問題が同一または数値のみが変更されており、多少の汚染が見られます。AIME 24と25は無傷ですが、2023年までのAIMEデータを組み込む際には特別な注意が必要です。Light-R1では、完全一致（数字を除く）とN-gram（N = 32）一致による徹底的な汚染除去を行いました。

📄 ライセンス

このモデルのライセンスはapache - 2.0です。

📚 引用

@misc{lightr1proj,
      title={Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond}, 
      author={Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
      year={2025},
      eprint={},
      archivePrefix={},
      url={https://github.com/Qihoo360/Light-R1}, 
}

📦 モデル情報

属性	詳情
ベースモデル	deepseek - ai/DeepSeek - R1 - Distill - Qwen - 32B
ライセンス	apache - 2.0
ライブラリ名	transformers
パイプラインタグ	text - generation