模型概述
模型特點
模型能力
使用案例
🚀 🧮 Fathom-R1-14B:使用R1-distilled-14B模型,僅需499美元訓練成本,在16K上下文窗口內解鎖o4-mini級別的數學推理能力
Fathom-R1-14B是一個基於Deepseek-R1-Distilled-Qwen-14B的140億參數推理語言模型,僅花費499美元的低成本進行後訓練,就在16K上下文窗口內實現了SOTA數學推理性能。它在最新的奧林匹克水平考試中表現出色,超越了多個基線模型,為數學推理模型的發展提供了新的思路。
🚀 快速開始
你可以通過以下鏈接訪問相關資源:
✨ 主要特性
- 低成本高性能:僅花費499美元的後訓練成本,就在16K上下文窗口內實現了SOTA數學推理性能。
- 超越基線模型:在最新的奧林匹克水平考試AIME-25和HMMT-25中,超越了o3-mini-low、o1-mini和LightR1-14B(16k)等模型,性能與閉源的o4-mini (low)相當。
- 泛化能力強:在非數學領域的GPQA-Diamond基準測試中也有出色表現,表明訓練方法有助於跨領域泛化。
- 推理效率高:在AIME25和HMMT25測試中,Fathom‑R1-14B-RS使用的響應令牌數比LightR1-14B更少,同時保持較高的pass@1分數。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
概述
推理模型通常需要高昂的後訓練預算和極長的推理鏈(如32k/64k)來最大化性能。本研究旨在在預算和推理鏈長度受限的情況下,提高模型性能。為此,我們引入了Fathom-R1-14B和Fathom-R1-14B-RS兩個模型。Fathom-R1-14B基於Deepseek-R1-Distilled-Qwen-14B,僅花費499美元進行後訓練,就在16K上下文窗口內實現了SOTA數學推理性能。Fathom-R1-14B-RS則通過多階段、低成本的後訓練技術,實現了與Fathom-R1-14B相當的性能,總後訓練成本僅為967美元。我們還開源了模型、後訓練配方和數據集,希望能推動推理領域的發展。
🧪 動機
推理模型在推理時間進行更長的思考可以解鎖更強大的推理能力和專家級別的性能。然而,現有的開源努力大多隻能接近R1系列模型的性能,無法超越它們。同時,一些方法的訓練成本高昂,且依賴更長的序列長度來提高準確性。此外,最新的研究對長COT推理模型中間步驟的正確性提出了質疑,因此確保推理鏈不過長對於可解釋性、可靠性和安全性至關重要。本研究旨在在不使用非常高的序列長度(24k/32k)的情況下,將上下文限制在16k,提高推理模型的性能。
訓練數據集
我們從以下開源數據集中精心策劃了一個高質量的數學語料庫:
- Open-R1 - 默認子集
- Numina – Olympiads & AOPS_forum(文字問題,浮點類型答案)
經過嚴格的去重和淨化,我們整合了約100K個獨特的問題,形成了所有後續訓練的初始語料庫。
🏗️ 後訓練策略
Fathom-R1-14B-v0.6的訓練配方
通過對難題及其推理鏈進行監督微調(SFT)可以有效提高推理能力。此訓練階段通過迭代課程學習策略,在最大16k序列長度下,專注於提高模型在各種難度級別的數學問題上的性能。課程學習(CL)是一種成熟的LLM訓練技術,模型會逐步接觸更難的任務。我們採用迭代方式進行課程學習,即多次迭代CL。
在數據集準備方面,我們使用OpenAI的o3mini模型對每個問題的難度進行標註,只保留評分高於平均水平的問題,並進一步篩選出解決率在一定範圍內(0.2 < pass_rate < 0.7)的問題,形成包含5K個示例的迭代課程學習數據集。
總H100 GPU小時數:48 成本:136美元
Fathom-R1-14B-v0.4-RS的訓練配方
創建此檢查點的核心策略是一個兩階段管道:
- 第一階段(利用強化學習進行高效測試時思考):我們首先策劃一個種子數據集,確保策略獲得最小獎勵,同時仍有提升空間。該數據集包含解決率在一定範圍內(較低序列長度)的問題,形成包含7.7K個問題的RL壓縮數據集。以DeepSeek-R1-Distill-Qwen-14B為基礎模型,使用GRPO算法在6k令牌序列長度限制下訓練模型。隨著模型學習生成簡潔的響應,我們看到性能持續提升。
- 第二階段(利用SFT在更高序列長度下有效提高推理能力):在RL檢查點的基礎上,我們在16K上下文窗口下進行SFT,以鼓勵更詳細的推理,解決更復雜的問題。為此,我們精心策劃了一個包含難題的數據集,即解決率較低(0 < pass_rate <=0.4)的問題,併為這些問題獲取最短的推理鏈,形成包含9.5K個示例的SFT最短鏈數據集。通過在該數據集上進行監督微調,模型能夠在高達16K的序列長度下穩定推理。最終模型命名為Fathom-R1-14B-v0.4,針對簡潔而準確的數學推理進行了優化。
總H100 GPU小時數:293 成本:831美元
Fathom-R1-14B-v0.4的訓練配方
鑑於在開發Fathom-R1-14B-v0.4-RS的第二階段微調中觀察到的性能提升,為了進一步降低成本,我們嘗試直接在Deepseek-R1-Distilled-Qwen-14B基礎模型上進行第二階段SFT,而不使用強化學習。
總H100 GPU小時數:128 成本:363美元
模型合併
由於v0.6和v0.4模型採用了不同的訓練方法,我們進行線性合併以結合它們的優勢,得到兩個最終檢查點:
- Fathom-R1-14B:通過合併Fathom-R1-14B-V0.6(迭代課程SFT)和Fathom-R1-14B-V0.4(SFT-最短鏈)得到。
- Fathom-R1-14B-RS:通過合併Fathom-R1-14B-V0.6(迭代課程SFT)和Fathom-R1-14B-V0.4(RL壓縮 + SFT-最短鏈)得到。
💰 後訓練成本
我們採用了一種聚焦、資源高效的策略來開發Fathom-R1-14B模型,在性能和計算預算之間取得了平衡。以下是使用的GPU時間和產生的成本:
模型權重 | GPU小時數(H100) | 成本(美元) |
---|---|---|
Fathom-R1-14B-V0.4-RS | 293 | 831 |
Fathom-R1-14B-V0.4 | 128 | 363 |
Fathom-R1-14B-V0.6 | 48 | 136 |
Fathom-R1-14B-RS | 341 | 967 |
Fathom-R1-14B | 176 | 499 |
最終的Fathom-R1-14B總共僅花費499美元進行訓練!這種低訓練成本凸顯了我們方法的效率,能夠在僅499美元的成本下,在16k序列長度預算內實現與o4-mini相當的高級數學推理能力。
📊 評估
我們使用DeepSeek‑R1論文中引入的相同指標和採樣配置(pass@1和cons@64)對Fathom‑R1-14B進行評估。但與DeepSeek‑R1的32,768個令牌輸出預算不同,我們的評估在16,384個令牌的減少輸出預算下進行,以更好地反映實際部署的限制。
- pass@1:Pass@1計算為每個問題k個採樣解決方案鏈的平均正確性(在我們的實驗中,k = 64)。
- cons@64:通過為每個問題採樣64個推理鏈並計算多數投票準確性來評估一致性。
評估配置:
- 溫度:0.6
- top_p:0.95
- 採樣鏈數量:64
- 上下文:16,384個令牌
這種設置使我們能夠在現實的內存和推理預算下對Fathom-R1-14B的推理性能和穩定性進行基準測試,同時保持與DeepSeek‑R1評估協議的兼容性。我們使用LIMO倉庫提供的評估框架進行推理和計算指標。有關詳細說明和實現細節,請參閱eval/README.md
。
結果
我們在3個具有挑戰性的基準測試(AIME25、HMMT25和GPQA)中評估並比較了Fathom‑R1-14B與幾個基線模型。對於每個基準測試,我們按照相同的評估配置報告pass@1
和cons@64
。
模型 | AIME25 | HMMT25 | ||
---|---|---|---|---|
pass@1 | cons@64 | pass@1 | cons@64 | |
閉源模型 | ||||
o1‑mini | 50.71 | 63.33 | 35.15 | 46.67 |
o3‑mini‑low | 42.60 | 53.33 | 26.61 | 33.33 |
o3‑mini‑medium | 72.24 | 83.33 | 49.21 | 60.00 |
o4-mini-low | 60.20 | 76.67 | 39.11 | 53.33 |
o1‑preview | 33.33 | 36.67 | 17.78 | 20.00 |
gpt‑4.5‑preview | 34.44 | 40.00 | 16.67 | 20.00 |
開源模型 | ||||
DeepSeek-R1-Distill-Qwen-14B | 45.50 | 63.33 | 30.00 | 50.00 |
DeepSeek-R1-Distill-Qwen-32B | 49.64 | 73.33 | 33.02 | 53.33 |
DeepSeekR1‑670B | 61.25 | 83.33 | 42.19 | 56.67 |
LightR1‑14B | 51.15 | 76.67 | 33.75 | 50.00 |
Fathom‑R1-14B-V0.4-RS | 50.94 | 73.33 | 33.70 | 40.00 |
Fathom‑R1-14B-V0.4 | 50.94 | 70.00 | 34.53 | 56.67 |
Fathom‑R1-14B-V0.6 | 50.63 | 76.67 | 32.19 | 50.00 |
Fathom‑R1-14B-RS | 52.03 | 76.67 | 35.00 | 53.33 |
Fathom‑R1-14B | 52.71 | 76.67 | 35.26 | 56.67 |
Fathom‑R1-14B在所有數據集上都表現出極具競爭力的性能,在多個設置中超越了原始的R1蒸餾模型,並與其他強大的基線模型相當或超越它們。在AIME 25和HMMT 25測試中,我們的模型在所有開源模型(包括更大的R1-Distilled-32B模型)中表現出最高的pass@1和cons@64分數,R1-670B是唯一的例外。實際上,我們觀察到Fathom-R1-14B優於OpenAI的前兩代迷你推理模型,包括o1-mini和o3-mini-low,其性能與新發布的o4-mini-low(自一致性解碼)非常接近。
🌍 超越數學的泛化能力:GPQA-Diamond
值得注意的是,儘管我們的訓練數據中沒有一個非數學問題的實例,但我們在GPQA-Diamond中也觀察到了跨領域的性能提升。這表明我們的訓練方法和在數學問題上的訓練有助於跨不同領域的泛化,這一發現與LightR1-14B和LIMO的觀察結果相似。
✅ GPQA基準測試比較(16k)
模型 | pass@1 | cons@64 |
---|---|---|
DeepSeek-R1-Distill-Qwen-14B | 54.19 | 64.14 |
LightR1‑14B | 56.94 | 65.15 |
Fathom‑R1-14B-RS | 59.13 | 66.16 |
Fathom‑R1-14B | 59.46 | 66.16 |
✂️ 令牌效率的消融研究
為了評估推理令牌效率,我們比較了在16k上下文長度下,AIME25和HMMT25測試中各模型的平均響應令牌數。在AIME25測試中,Fathom‑R1-14B-RS使用的響應令牌數比LightR1-14B少10%,同時保持較高的pass@1分數。HMMT25問題相對AIME25更難,難題通常需要更多的思考令牌。在HMMT25測試中,Fathom‑R1-14B-RS使用的響應令牌數比LightR1-14B少4.5%,同時保持較高的pass@1分數。
平均響應長度(令牌)
模型 | AIME25 | HMMT25 |
---|---|---|
LightR1-14B | 11330 | 12680 |
DeepSeek-R1-Distill-Qwen-14B | 10878 | 12263 |
Fathom‑R1-14B-V0.4 | 10570 | 11950 |
Fathom‑R1-14B | 10956 | 12125 |
Fathom‑R1-14B-RS | 10083 | 12100 |
數據淨化
使用的兩個基準測試(AIME 25和HMMT 25)在基礎模型發佈幾周後發佈,確保了模型預訓練期間沒有發生數據汙染。數據集語料庫(Numina-Math 1.5和OpenR1-Math)與這些考試大約同時發佈,截止日期不晚於2024年。此外,我們還進行了檢查,以驗證訓練數據中沒有汙染。
發佈資產
- 訓練配方博客:🤗 花費499美元創建Fathom-R1-14B的訓練配方
- 最終合併模型:🤗 Fathom-R1-14B,🤗 Fathom-R1-14B-RS
- 中間模型:🤗 Fathom-R1-14B-V0.6,🤗 Fathom-R1-14B-V0.4,🤗 Fathom-R1-14B-V0.4-RS
- Fathom-R1-14B數據集:🤗 V0.6-迭代課程學習,🤗 V0.4-SFT-最短鏈,🤗 V0.4-RL-壓縮
🔧 技術細節
文檔未提供具體技術細節,暫不展示。
📄 許可證
本倉庫和所有發佈的資產均遵循MIT許可證,這體現了我們對開放和包容的AI創新的承諾。通過免費分享我們的工作,我們旨在使AI技術民主化,使世界各地的研究人員、開發人員和愛好者能夠無限制地使用、修改和擴展它。這種開放和寬鬆的方法促進了全球合作,加速了創新,並豐富了整個AI社區。
致謝
我們感謝以下工作為我們的項目提供了支持:
📖 引用
@misc{fathom14b2025,
title={Fathom-R1: $499 Training Recipe for Unlocking Math Reasoning at o4-mini level with just 14B parameters under 16K context},
author={Kunal Singh and Pradeep Moturi and Ankan Biswas and Siva Gollapalli and Sayandeep Bhowmick},
howpublished={\url{https://huggingface.co/FractalAIResearch/Fathom-R1-14B}},
note={Hugging Face},
year={2025}
}
關於Ramanujan項目
我們大約在一年前啟動了Ramanujan項目,旨在通過突破高級推理的界限來解鎖智能並增強AI代理。我們的主要成就包括:
- ICLR'25 & NeurIPS'24-MATH-AI:SBSC: Step-By-Step Coding for Improving Mathematical Olympiad Performance
- HackerCupAI@NeurIPS'24 & ICLR'25-VerifAI獲獎者:Stress Testing Based Self-Consistency For Olympiad Programming
- CVPR'25-MULA:TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents
- AIMO'24銀牌



