模型简介
模型特点
模型能力
使用案例
🚀 🧮 Fathom-R1-14B:使用R1-distilled-14B模型,仅需499美元训练成本,在16K上下文窗口内解锁o4-mini级别的数学推理能力
Fathom-R1-14B是一个基于Deepseek-R1-Distilled-Qwen-14B的140亿参数推理语言模型,仅花费499美元的低成本进行后训练,就在16K上下文窗口内实现了SOTA数学推理性能。它在最新的奥林匹克水平考试中表现出色,超越了多个基线模型,为数学推理模型的发展提供了新的思路。
🚀 快速开始
你可以通过以下链接访问相关资源:
✨ 主要特性
- 低成本高性能:仅花费499美元的后训练成本,就在16K上下文窗口内实现了SOTA数学推理性能。
- 超越基线模型:在最新的奥林匹克水平考试AIME-25和HMMT-25中,超越了o3-mini-low、o1-mini和LightR1-14B(16k)等模型,性能与闭源的o4-mini (low)相当。
- 泛化能力强:在非数学领域的GPQA-Diamond基准测试中也有出色表现,表明训练方法有助于跨领域泛化。
- 推理效率高:在AIME25和HMMT25测试中,Fathom‑R1-14B-RS使用的响应令牌数比LightR1-14B更少,同时保持较高的pass@1分数。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
概述
推理模型通常需要高昂的后训练预算和极长的推理链(如32k/64k)来最大化性能。本研究旨在在预算和推理链长度受限的情况下,提高模型性能。为此,我们引入了Fathom-R1-14B和Fathom-R1-14B-RS两个模型。Fathom-R1-14B基于Deepseek-R1-Distilled-Qwen-14B,仅花费499美元进行后训练,就在16K上下文窗口内实现了SOTA数学推理性能。Fathom-R1-14B-RS则通过多阶段、低成本的后训练技术,实现了与Fathom-R1-14B相当的性能,总后训练成本仅为967美元。我们还开源了模型、后训练配方和数据集,希望能推动推理领域的发展。
🧪 动机
推理模型在推理时间进行更长的思考可以解锁更强大的推理能力和专家级别的性能。然而,现有的开源努力大多只能接近R1系列模型的性能,无法超越它们。同时,一些方法的训练成本高昂,且依赖更长的序列长度来提高准确性。此外,最新的研究对长COT推理模型中间步骤的正确性提出了质疑,因此确保推理链不过长对于可解释性、可靠性和安全性至关重要。本研究旨在在不使用非常高的序列长度(24k/32k)的情况下,将上下文限制在16k,提高推理模型的性能。
训练数据集
我们从以下开源数据集中精心策划了一个高质量的数学语料库:
- Open-R1 - 默认子集
- Numina – Olympiads & AOPS_forum(文字问题,浮点类型答案)
经过严格的去重和净化,我们整合了约100K个独特的问题,形成了所有后续训练的初始语料库。
🏗️ 后训练策略
Fathom-R1-14B-v0.6的训练配方
通过对难题及其推理链进行监督微调(SFT)可以有效提高推理能力。此训练阶段通过迭代课程学习策略,在最大16k序列长度下,专注于提高模型在各种难度级别的数学问题上的性能。课程学习(CL)是一种成熟的LLM训练技术,模型会逐步接触更难的任务。我们采用迭代方式进行课程学习,即多次迭代CL。
在数据集准备方面,我们使用OpenAI的o3mini模型对每个问题的难度进行标注,只保留评分高于平均水平的问题,并进一步筛选出解决率在一定范围内(0.2 < pass_rate < 0.7)的问题,形成包含5K个示例的迭代课程学习数据集。
总H100 GPU小时数:48 成本:136美元
Fathom-R1-14B-v0.4-RS的训练配方
创建此检查点的核心策略是一个两阶段管道:
- 第一阶段(利用强化学习进行高效测试时思考):我们首先策划一个种子数据集,确保策略获得最小奖励,同时仍有提升空间。该数据集包含解决率在一定范围内(较低序列长度)的问题,形成包含7.7K个问题的RL压缩数据集。以DeepSeek-R1-Distill-Qwen-14B为基础模型,使用GRPO算法在6k令牌序列长度限制下训练模型。随着模型学习生成简洁的响应,我们看到性能持续提升。
- 第二阶段(利用SFT在更高序列长度下有效提高推理能力):在RL检查点的基础上,我们在16K上下文窗口下进行SFT,以鼓励更详细的推理,解决更复杂的问题。为此,我们精心策划了一个包含难题的数据集,即解决率较低(0 < pass_rate <=0.4)的问题,并为这些问题获取最短的推理链,形成包含9.5K个示例的SFT最短链数据集。通过在该数据集上进行监督微调,模型能够在高达16K的序列长度下稳定推理。最终模型命名为Fathom-R1-14B-v0.4,针对简洁而准确的数学推理进行了优化。
总H100 GPU小时数:293 成本:831美元
Fathom-R1-14B-v0.4的训练配方
鉴于在开发Fathom-R1-14B-v0.4-RS的第二阶段微调中观察到的性能提升,为了进一步降低成本,我们尝试直接在Deepseek-R1-Distilled-Qwen-14B基础模型上进行第二阶段SFT,而不使用强化学习。
总H100 GPU小时数:128 成本:363美元
模型合并
由于v0.6和v0.4模型采用了不同的训练方法,我们进行线性合并以结合它们的优势,得到两个最终检查点:
- Fathom-R1-14B:通过合并Fathom-R1-14B-V0.6(迭代课程SFT)和Fathom-R1-14B-V0.4(SFT-最短链)得到。
- Fathom-R1-14B-RS:通过合并Fathom-R1-14B-V0.6(迭代课程SFT)和Fathom-R1-14B-V0.4(RL压缩 + SFT-最短链)得到。
💰 后训练成本
我们采用了一种聚焦、资源高效的策略来开发Fathom-R1-14B模型,在性能和计算预算之间取得了平衡。以下是使用的GPU时间和产生的成本:
模型权重 | GPU小时数(H100) | 成本(美元) |
---|---|---|
Fathom-R1-14B-V0.4-RS | 293 | 831 |
Fathom-R1-14B-V0.4 | 128 | 363 |
Fathom-R1-14B-V0.6 | 48 | 136 |
Fathom-R1-14B-RS | 341 | 967 |
Fathom-R1-14B | 176 | 499 |
最终的Fathom-R1-14B总共仅花费499美元进行训练!这种低训练成本凸显了我们方法的效率,能够在仅499美元的成本下,在16k序列长度预算内实现与o4-mini相当的高级数学推理能力。
📊 评估
我们使用DeepSeek‑R1论文中引入的相同指标和采样配置(pass@1和cons@64)对Fathom‑R1-14B进行评估。但与DeepSeek‑R1的32,768个令牌输出预算不同,我们的评估在16,384个令牌的减少输出预算下进行,以更好地反映实际部署的限制。
- pass@1:Pass@1计算为每个问题k个采样解决方案链的平均正确性(在我们的实验中,k = 64)。
- cons@64:通过为每个问题采样64个推理链并计算多数投票准确性来评估一致性。
评估配置:
- 温度:0.6
- top_p:0.95
- 采样链数量:64
- 上下文:16,384个令牌
这种设置使我们能够在现实的内存和推理预算下对Fathom-R1-14B的推理性能和稳定性进行基准测试,同时保持与DeepSeek‑R1评估协议的兼容性。我们使用LIMO仓库提供的评估框架进行推理和计算指标。有关详细说明和实现细节,请参阅eval/README.md
。
结果
我们在3个具有挑战性的基准测试(AIME25、HMMT25和GPQA)中评估并比较了Fathom‑R1-14B与几个基线模型。对于每个基准测试,我们按照相同的评估配置报告pass@1
和cons@64
。
模型 | AIME25 | HMMT25 | ||
---|---|---|---|---|
pass@1 | cons@64 | pass@1 | cons@64 | |
闭源模型 | ||||
o1‑mini | 50.71 | 63.33 | 35.15 | 46.67 |
o3‑mini‑low | 42.60 | 53.33 | 26.61 | 33.33 |
o3‑mini‑medium | 72.24 | 83.33 | 49.21 | 60.00 |
o4-mini-low | 60.20 | 76.67 | 39.11 | 53.33 |
o1‑preview | 33.33 | 36.67 | 17.78 | 20.00 |
gpt‑4.5‑preview | 34.44 | 40.00 | 16.67 | 20.00 |
开源模型 | ||||
DeepSeek-R1-Distill-Qwen-14B | 45.50 | 63.33 | 30.00 | 50.00 |
DeepSeek-R1-Distill-Qwen-32B | 49.64 | 73.33 | 33.02 | 53.33 |
DeepSeekR1‑670B | 61.25 | 83.33 | 42.19 | 56.67 |
LightR1‑14B | 51.15 | 76.67 | 33.75 | 50.00 |
Fathom‑R1-14B-V0.4-RS | 50.94 | 73.33 | 33.70 | 40.00 |
Fathom‑R1-14B-V0.4 | 50.94 | 70.00 | 34.53 | 56.67 |
Fathom‑R1-14B-V0.6 | 50.63 | 76.67 | 32.19 | 50.00 |
Fathom‑R1-14B-RS | 52.03 | 76.67 | 35.00 | 53.33 |
Fathom‑R1-14B | 52.71 | 76.67 | 35.26 | 56.67 |
Fathom‑R1-14B在所有数据集上都表现出极具竞争力的性能,在多个设置中超越了原始的R1蒸馏模型,并与其他强大的基线模型相当或超越它们。在AIME 25和HMMT 25测试中,我们的模型在所有开源模型(包括更大的R1-Distilled-32B模型)中表现出最高的pass@1和cons@64分数,R1-670B是唯一的例外。实际上,我们观察到Fathom-R1-14B优于OpenAI的前两代迷你推理模型,包括o1-mini和o3-mini-low,其性能与新发布的o4-mini-low(自一致性解码)非常接近。
🌍 超越数学的泛化能力:GPQA-Diamond
值得注意的是,尽管我们的训练数据中没有一个非数学问题的实例,但我们在GPQA-Diamond中也观察到了跨领域的性能提升。这表明我们的训练方法和在数学问题上的训练有助于跨不同领域的泛化,这一发现与LightR1-14B和LIMO的观察结果相似。
✅ GPQA基准测试比较(16k)
模型 | pass@1 | cons@64 |
---|---|---|
DeepSeek-R1-Distill-Qwen-14B | 54.19 | 64.14 |
LightR1‑14B | 56.94 | 65.15 |
Fathom‑R1-14B-RS | 59.13 | 66.16 |
Fathom‑R1-14B | 59.46 | 66.16 |
✂️ 令牌效率的消融研究
为了评估推理令牌效率,我们比较了在16k上下文长度下,AIME25和HMMT25测试中各模型的平均响应令牌数。在AIME25测试中,Fathom‑R1-14B-RS使用的响应令牌数比LightR1-14B少10%,同时保持较高的pass@1分数。HMMT25问题相对AIME25更难,难题通常需要更多的思考令牌。在HMMT25测试中,Fathom‑R1-14B-RS使用的响应令牌数比LightR1-14B少4.5%,同时保持较高的pass@1分数。
平均响应长度(令牌)
模型 | AIME25 | HMMT25 |
---|---|---|
LightR1-14B | 11330 | 12680 |
DeepSeek-R1-Distill-Qwen-14B | 10878 | 12263 |
Fathom‑R1-14B-V0.4 | 10570 | 11950 |
Fathom‑R1-14B | 10956 | 12125 |
Fathom‑R1-14B-RS | 10083 | 12100 |
数据净化
使用的两个基准测试(AIME 25和HMMT 25)在基础模型发布几周后发布,确保了模型预训练期间没有发生数据污染。数据集语料库(Numina-Math 1.5和OpenR1-Math)与这些考试大约同时发布,截止日期不晚于2024年。此外,我们还进行了检查,以验证训练数据中没有污染。
发布资产
- 训练配方博客:🤗 花费499美元创建Fathom-R1-14B的训练配方
- 最终合并模型:🤗 Fathom-R1-14B,🤗 Fathom-R1-14B-RS
- 中间模型:🤗 Fathom-R1-14B-V0.6,🤗 Fathom-R1-14B-V0.4,🤗 Fathom-R1-14B-V0.4-RS
- Fathom-R1-14B数据集:🤗 V0.6-迭代课程学习,🤗 V0.4-SFT-最短链,🤗 V0.4-RL-压缩
🔧 技术细节
文档未提供具体技术细节,暂不展示。
📄 许可证
本仓库和所有发布的资产均遵循MIT许可证,这体现了我们对开放和包容的AI创新的承诺。通过免费分享我们的工作,我们旨在使AI技术民主化,使世界各地的研究人员、开发人员和爱好者能够无限制地使用、修改和扩展它。这种开放和宽松的方法促进了全球合作,加速了创新,并丰富了整个AI社区。
致谢
我们感谢以下工作为我们的项目提供了支持:
📖 引用
@misc{fathom14b2025,
title={Fathom-R1: $499 Training Recipe for Unlocking Math Reasoning at o4-mini level with just 14B parameters under 16K context},
author={Kunal Singh and Pradeep Moturi and Ankan Biswas and Siva Gollapalli and Sayandeep Bhowmick},
howpublished={\url{https://huggingface.co/FractalAIResearch/Fathom-R1-14B}},
note={Hugging Face},
year={2025}
}
关于Ramanujan项目
我们大约在一年前启动了Ramanujan项目,旨在通过突破高级推理的界限来解锁智能并增强AI代理。我们的主要成就包括:
- ICLR'25 & NeurIPS'24-MATH-AI:SBSC: Step-By-Step Coding for Improving Mathematical Olympiad Performance
- HackerCupAI@NeurIPS'24 & ICLR'25-VerifAI获奖者:Stress Testing Based Self-Consistency For Olympiad Programming
- CVPR'25-MULA:TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents
- AIMO'24银牌



