🚀 歡迎來到由北大數據科學實驗室創建的FairyR1 - 32B!
FairyR1 - 32B是一款高效的大語言模型(LLM),儘管僅使用了約5%的參數,但在特定任務上的表現與更大的模型相當甚至更優。該模型基於DeepSeek - R1 - Distill - Qwen - 32B基礎構建,採用了新穎的“蒸餾與合併”管道,結合了針對任務的微調與模型合併技術,在大幅減小模型規模和推理成本的同時,仍能提供有競爭力的性能。本項目由國家自然科學基金(項目編號624B2005)資助。
基準測試 |
DeepSeek - R1 - 671B |
DeepSeek - R1 - Distill - Qwen - 32B |
FairyR1 - 32B(北大) |
AIME 2024(數學) |
79.8 |
72.6 |
80.4 |
AIME 2025(數學) |
70.0 |
52.9 |
75.6 |
LiveCodeBench(代碼) |
65.9 |
57.2 |
67.7 |
GPQA - Diamond(科學問答) |
71.5 |
62.1 |
60.0 |
✨ 主要特性
FairyR1 - 32B模型是對我們早期工作TinyR1的進一步探索,保留了核心的“分支合併蒸餾”方法,同時在數據處理和模型架構方面進行了改進。
在這項工作中,我們徹底改革了蒸餾數據管道:來自數學數據集(如AIMO/NuminaMath - 1.5)和代碼數據集(如OpenThoughts - 114k)的原始示例首先通過多個“教師”模型生成候選答案。然後對這些候選答案進行精心選擇、重組和優化,特別是針對思維鏈(CoT)。隨後,我們應用了多階段過濾,包括對數學問題進行自動正確性檢查,以及基於長度的選擇(數學樣本為2K - 8K個標記,代碼樣本為4K - 8K個標記)。這產生了兩個聚焦的訓練集,大約包含6.6K個數學示例和3.8K個代碼示例。
在模型方面,我們沒有像之前那樣訓練三個獨立的專家模型,而是將範圍限制在兩個領域專家(數學和代碼),每個專家在相同的超參數(如學習率和批量大小)下獨立訓練約五個週期。然後,我們使用AcreeFusion工具將這些專家模型合併為一個32B參數的模型。通過簡化數據蒸餾工作流程和專家模型合併過程,FairyR1在大幅減小模型規模和推理成本的情況下,仍能在任務上取得有競爭力的結果。
📚 詳細文檔
模型詳情
FairyR1模型是對我們早期工作TinyR1的進一步探索,保留了核心的“分支合併蒸餾”方法,同時在數據處理和模型架構方面進行了改進。
結果分析與主要貢獻
從測試結果來看,FairyR1在AIME 2025和LiveCodeBench基準測試中的得分略高於DeepSeek - R1 - 671B,在AIME 2024中的表現相當。
這些結果表明,通過基於DeepSeek - R1 - Distill - Qwen - 32B基礎並應用針對性技術,FairyR1在數學和編程領域使用僅約5%的參數就能實現相當或略優的性能,儘管在其他領域(如科學問答)可能仍存在性能差距。
這項工作證明了通過優化數據處理和模型融合技術,在保持特定任務強性能的同時,顯著減小模型規模和潛在推理成本是可行的。
模型描述
屬性 |
詳情 |
開發團隊 |
北大數據科學實驗室 |
模型類型 |
推理模型 |
支持語言(NLP) |
英語、中文 |
許可證 |
Apache - 2.0 |
微調基礎模型 |
DeepSeek - R1 - Distill - Qwen - 32B |
訓練數據
- 數學:來自[AI - MO/NuminaMath - 1.5](https://huggingface.co/datasets/AI - MO/NuminaMath - 1.5)默認子集的6.6k條思維鏈軌跡。
- 代碼:來自[open - thoughts/OpenThoughts - 114k](https://huggingface.co/datasets/open - thoughts/OpenThoughts - 114k)編碼子集的3.8k條思維鏈軌跡。
硬件使用情況
- 硬件類型:32 × NVIDIA - H100
- 數學訓練用時:2.5小時
- 代碼訓練用時:1.5小時
- 模型合併:在CPU上約40分鐘,無需GPU。
評估集
🔧 團隊成員
負責人
童洋
核心貢獻者
王莉;周俊廷;劉文瑞;姚一倫;王榮樂
📄 許可證
本項目採用Apache - 2.0許可證。
📞 模型卡片聯繫方式
如需更多詳情,請聯繫:yangtong@pku.edu.cn