FairyR1-32B開源大型語言模型 - 免費部署助力數學與編程任務

首頁

Fairyr1 32B

由PKU-DS-LAB開發

FairyR1-32B是一款高效的大型語言模型，基於DeepSeek-R1-Distill-Qwen-32B，通過優化的蒸餾與合併流程，在數學和編程任務上表現優異。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #數學編程雙優 #高效蒸餾模型 #小參高性能

下載量 372

發布時間 : 5/23/2025

模型概述

FairyR1-32B是一款專注於數學和編程任務的高效語言模型，通過任務導向的微調和模型合併技術，顯著降低了模型規模和推理成本，同時保持高性能。

模型特點

高效性能

僅使用約5%的參數，在數學和編程任務上表現與更大規模模型相當或更優。

優化的蒸餾流程

通過多階段數據篩選和重構，精選高質量訓練樣本，提升模型性能。

模型合併技術

使用AcreeFusion工具將多個專家模型融合為統一模型，簡化架構並降低成本。

模型能力

數學問題解答

代碼生成

科學問答

文本生成

使用案例

教育

數學競賽題解答

用於解答AIME等數學競賽題目，提供詳細解題步驟。

在AIME 2024和2025測試中表現優異。

編程

代碼生成與優化

生成和優化編程代碼，支持多種編程語言。

在LiveCodeBench測試中表現優於同類模型。

🚀 歡迎來到由北大數據科學實驗室創建的FairyR1 - 32B！

FairyR1 - 32B是一款高效的大語言模型（LLM），儘管僅使用了約5%的參數，但在特定任務上的表現與更大的模型相當甚至更優。該模型基於DeepSeek - R1 - Distill - Qwen - 32B基礎構建，採用了新穎的“蒸餾與合併”管道，結合了針對任務的微調與模型合併技術，在大幅減小模型規模和推理成本的同時，仍能提供有競爭力的性能。本項目由國家自然科學基金（項目編號624B2005）資助。

基準測試	DeepSeek - R1 - 671B	DeepSeek - R1 - Distill - Qwen - 32B	FairyR1 - 32B（北大）
AIME 2024（數學）	79.8	72.6	80.4
AIME 2025（數學）	70.0	52.9	75.6
LiveCodeBench（代碼）	65.9	57.2	67.7
GPQA - Diamond（科學問答）	71.5	62.1	60.0

✨ 主要特性

FairyR1 - 32B模型是對我們早期工作TinyR1的進一步探索，保留了核心的“分支合併蒸餾”方法，同時在數據處理和模型架構方面進行了改進。

在這項工作中，我們徹底改革了蒸餾數據管道：來自數學數據集（如AIMO/NuminaMath - 1.5）和代碼數據集（如OpenThoughts - 114k）的原始示例首先通過多個“教師”模型生成候選答案。然後對這些候選答案進行精心選擇、重組和優化，特別是針對思維鏈（CoT）。隨後，我們應用了多階段過濾，包括對數學問題進行自動正確性檢查，以及基於長度的選擇（數學樣本為2K - 8K個標記，代碼樣本為4K - 8K個標記）。這產生了兩個聚焦的訓練集，大約包含6.6K個數學示例和3.8K個代碼示例。

在模型方面，我們沒有像之前那樣訓練三個獨立的專家模型，而是將範圍限制在兩個領域專家（數學和代碼），每個專家在相同的超參數（如學習率和批量大小）下獨立訓練約五個週期。然後，我們使用AcreeFusion工具將這些專家模型合併為一個32B參數的模型。通過簡化數據蒸餾工作流程和專家模型合併過程，FairyR1在大幅減小模型規模和推理成本的情況下，仍能在任務上取得有競爭力的結果。

📚 詳細文檔

模型詳情

FairyR1模型是對我們早期工作TinyR1的進一步探索，保留了核心的“分支合併蒸餾”方法，同時在數據處理和模型架構方面進行了改進。

結果分析與主要貢獻

從測試結果來看，FairyR1在AIME 2025和LiveCodeBench基準測試中的得分略高於DeepSeek - R1 - 671B，在AIME 2024中的表現相當。

這些結果表明，通過基於DeepSeek - R1 - Distill - Qwen - 32B基礎並應用針對性技術，FairyR1在數學和編程領域使用僅約5%的參數就能實現相當或略優的性能，儘管在其他領域（如科學問答）可能仍存在性能差距。

這項工作證明了通過優化數據處理和模型融合技術，在保持特定任務強性能的同時，顯著減小模型規模和潛在推理成本是可行的。

模型描述

屬性	詳情
開發團隊	北大數據科學實驗室
模型類型	推理模型
支持語言（NLP）	英語、中文
許可證	Apache - 2.0
微調基礎模型	DeepSeek - R1 - Distill - Qwen - 32B

訓練數據

數學：來自[AI - MO/NuminaMath - 1.5](https://huggingface.co/datasets/AI - MO/NuminaMath - 1.5)默認子集的6.6k條思維鏈軌跡。
代碼：來自[open - thoughts/OpenThoughts - 114k](https://huggingface.co/datasets/open - thoughts/OpenThoughts - 114k)編碼子集的3.8k條思維鏈軌跡。

硬件使用情況

硬件類型：32 × NVIDIA - H100
數學訓練用時：2.5小時
代碼訓練用時：1.5小時
模型合併：在CPU上約40分鐘，無需GPU。

評估集

AIME 2024/2025（數學）：我們進行32次評估並報告平均準確率。AIME 2024包含30個問題。AIME 2025由第一部分和第二部分組成，共30個問題。
LiveCodeBench（代碼）：我們進行8次評估並報告平均準確率。數據集版本為“release_v5”（日期範圍：2024 - 08 - 01至2025 - 02 - 01），包含279個問題。
GPQA - Diamond（科學問答）：我們進行8次評估並報告平均準確率。數據集包含198個問題。