🚀 欢迎来到由北大数据科学实验室创建的FairyR1 - 32B!
FairyR1 - 32B是一款高效的大语言模型(LLM),尽管仅使用了约5%的参数,但在特定任务上的表现与更大的模型相当甚至更优。该模型基于DeepSeek - R1 - Distill - Qwen - 32B基础构建,采用了新颖的“蒸馏与合并”管道,结合了针对任务的微调与模型合并技术,在大幅减小模型规模和推理成本的同时,仍能提供有竞争力的性能。本项目由国家自然科学基金(项目编号624B2005)资助。
基准测试 |
DeepSeek - R1 - 671B |
DeepSeek - R1 - Distill - Qwen - 32B |
FairyR1 - 32B(北大) |
AIME 2024(数学) |
79.8 |
72.6 |
80.4 |
AIME 2025(数学) |
70.0 |
52.9 |
75.6 |
LiveCodeBench(代码) |
65.9 |
57.2 |
67.7 |
GPQA - Diamond(科学问答) |
71.5 |
62.1 |
60.0 |
✨ 主要特性
FairyR1 - 32B模型是对我们早期工作TinyR1的进一步探索,保留了核心的“分支合并蒸馏”方法,同时在数据处理和模型架构方面进行了改进。
在这项工作中,我们彻底改革了蒸馏数据管道:来自数学数据集(如AIMO/NuminaMath - 1.5)和代码数据集(如OpenThoughts - 114k)的原始示例首先通过多个“教师”模型生成候选答案。然后对这些候选答案进行精心选择、重组和优化,特别是针对思维链(CoT)。随后,我们应用了多阶段过滤,包括对数学问题进行自动正确性检查,以及基于长度的选择(数学样本为2K - 8K个标记,代码样本为4K - 8K个标记)。这产生了两个聚焦的训练集,大约包含6.6K个数学示例和3.8K个代码示例。
在模型方面,我们没有像之前那样训练三个独立的专家模型,而是将范围限制在两个领域专家(数学和代码),每个专家在相同的超参数(如学习率和批量大小)下独立训练约五个周期。然后,我们使用AcreeFusion工具将这些专家模型合并为一个32B参数的模型。通过简化数据蒸馏工作流程和专家模型合并过程,FairyR1在大幅减小模型规模和推理成本的情况下,仍能在任务上取得有竞争力的结果。
📚 详细文档
模型详情
FairyR1模型是对我们早期工作TinyR1的进一步探索,保留了核心的“分支合并蒸馏”方法,同时在数据处理和模型架构方面进行了改进。
结果分析与主要贡献
从测试结果来看,FairyR1在AIME 2025和LiveCodeBench基准测试中的得分略高于DeepSeek - R1 - 671B,在AIME 2024中的表现相当。
这些结果表明,通过基于DeepSeek - R1 - Distill - Qwen - 32B基础并应用针对性技术,FairyR1在数学和编程领域使用仅约5%的参数就能实现相当或略优的性能,尽管在其他领域(如科学问答)可能仍存在性能差距。
这项工作证明了通过优化数据处理和模型融合技术,在保持特定任务强性能的同时,显著减小模型规模和潜在推理成本是可行的。
模型描述
属性 |
详情 |
开发团队 |
北大数据科学实验室 |
模型类型 |
推理模型 |
支持语言(NLP) |
英语、中文 |
许可证 |
Apache - 2.0 |
微调基础模型 |
DeepSeek - R1 - Distill - Qwen - 32B |
训练数据
- 数学:来自[AI - MO/NuminaMath - 1.5](https://huggingface.co/datasets/AI - MO/NuminaMath - 1.5)默认子集的6.6k条思维链轨迹。
- 代码:来自[open - thoughts/OpenThoughts - 114k](https://huggingface.co/datasets/open - thoughts/OpenThoughts - 114k)编码子集的3.8k条思维链轨迹。
硬件使用情况
- 硬件类型:32 × NVIDIA - H100
- 数学训练用时:2.5小时
- 代码训练用时:1.5小时
- 模型合并:在CPU上约40分钟,无需GPU。
评估集
🔧 团队成员
负责人
童洋
核心贡献者
王莉;周俊廷;刘文瑞;姚一伦;王荣乐
📄 许可证
本项目采用Apache - 2.0许可证。
📞 模型卡片联系方式
如需更多详情,请联系:yangtong@pku.edu.cn