FairyR1-32B开源大型语言模型 - 免费部署助力数学与编程任务

首页

Fairyr1 32B

由 PKU-DS-LAB 开发

FairyR1-32B是一款高效的大型语言模型，基于DeepSeek-R1-Distill-Qwen-32B，通过优化的蒸馏与合并流程，在数学和编程任务上表现优异。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #数学编程双优 #高效蒸馏模型 #小参高性能

下载量 372

发布时间 : 5/23/2025

模型简介

FairyR1-32B是一款专注于数学和编程任务的高效语言模型，通过任务导向的微调和模型合并技术，显著降低了模型规模和推理成本，同时保持高性能。

模型特点

高效性能

仅使用约5%的参数，在数学和编程任务上表现与更大规模模型相当或更优。

优化的蒸馏流程

通过多阶段数据筛选和重构，精选高质量训练样本，提升模型性能。

模型合并技术

使用AcreeFusion工具将多个专家模型融合为统一模型，简化架构并降低成本。

模型能力

数学问题解答

代码生成

科学问答

文本生成

使用案例

教育

数学竞赛题解答

用于解答AIME等数学竞赛题目，提供详细解题步骤。

在AIME 2024和2025测试中表现优异。

编程

代码生成与优化

生成和优化编程代码，支持多种编程语言。

在LiveCodeBench测试中表现优于同类模型。

🚀 欢迎来到由北大数据科学实验室创建的FairyR1 - 32B！

FairyR1 - 32B是一款高效的大语言模型（LLM），尽管仅使用了约5%的参数，但在特定任务上的表现与更大的模型相当甚至更优。该模型基于DeepSeek - R1 - Distill - Qwen - 32B基础构建，采用了新颖的“蒸馏与合并”管道，结合了针对任务的微调与模型合并技术，在大幅减小模型规模和推理成本的同时，仍能提供有竞争力的性能。本项目由国家自然科学基金（项目编号624B2005）资助。

基准测试	DeepSeek - R1 - 671B	DeepSeek - R1 - Distill - Qwen - 32B	FairyR1 - 32B（北大）
AIME 2024（数学）	79.8	72.6	80.4
AIME 2025（数学）	70.0	52.9	75.6
LiveCodeBench（代码）	65.9	57.2	67.7
GPQA - Diamond（科学问答）	71.5	62.1	60.0

✨ 主要特性

FairyR1 - 32B模型是对我们早期工作TinyR1的进一步探索，保留了核心的“分支合并蒸馏”方法，同时在数据处理和模型架构方面进行了改进。

在这项工作中，我们彻底改革了蒸馏数据管道：来自数学数据集（如AIMO/NuminaMath - 1.5）和代码数据集（如OpenThoughts - 114k）的原始示例首先通过多个“教师”模型生成候选答案。然后对这些候选答案进行精心选择、重组和优化，特别是针对思维链（CoT）。随后，我们应用了多阶段过滤，包括对数学问题进行自动正确性检查，以及基于长度的选择（数学样本为2K - 8K个标记，代码样本为4K - 8K个标记）。这产生了两个聚焦的训练集，大约包含6.6K个数学示例和3.8K个代码示例。

在模型方面，我们没有像之前那样训练三个独立的专家模型，而是将范围限制在两个领域专家（数学和代码），每个专家在相同的超参数（如学习率和批量大小）下独立训练约五个周期。然后，我们使用AcreeFusion工具将这些专家模型合并为一个32B参数的模型。通过简化数据蒸馏工作流程和专家模型合并过程，FairyR1在大幅减小模型规模和推理成本的情况下，仍能在任务上取得有竞争力的结果。

📚 详细文档

模型详情

FairyR1模型是对我们早期工作TinyR1的进一步探索，保留了核心的“分支合并蒸馏”方法，同时在数据处理和模型架构方面进行了改进。

结果分析与主要贡献

从测试结果来看，FairyR1在AIME 2025和LiveCodeBench基准测试中的得分略高于DeepSeek - R1 - 671B，在AIME 2024中的表现相当。

这些结果表明，通过基于DeepSeek - R1 - Distill - Qwen - 32B基础并应用针对性技术，FairyR1在数学和编程领域使用仅约5%的参数就能实现相当或略优的性能，尽管在其他领域（如科学问答）可能仍存在性能差距。

这项工作证明了通过优化数据处理和模型融合技术，在保持特定任务强性能的同时，显著减小模型规模和潜在推理成本是可行的。

模型描述

属性	详情
开发团队	北大数据科学实验室
模型类型	推理模型
支持语言（NLP）	英语、中文
许可证	Apache - 2.0
微调基础模型	DeepSeek - R1 - Distill - Qwen - 32B

训练数据

数学：来自[AI - MO/NuminaMath - 1.5](https://huggingface.co/datasets/AI - MO/NuminaMath - 1.5)默认子集的6.6k条思维链轨迹。
代码：来自[open - thoughts/OpenThoughts - 114k](https://huggingface.co/datasets/open - thoughts/OpenThoughts - 114k)编码子集的3.8k条思维链轨迹。

硬件使用情况

硬件类型：32 × NVIDIA - H100
数学训练用时：2.5小时
代码训练用时：1.5小时
模型合并：在CPU上约40分钟，无需GPU。

评估集

AIME 2024/2025（数学）：我们进行32次评估并报告平均准确率。AIME 2024包含30个问题。AIME 2025由第一部分和第二部分组成，共30个问题。
LiveCodeBench（代码）：我们进行8次评估并报告平均准确率。数据集版本为“release_v5”（日期范围：2024 - 08 - 01至2025 - 02 - 01），包含279个问题。
GPQA - Diamond（科学问答）：我们进行8次评估并报告平均准确率。数据集包含198个问题。