モデル概要
モデル特徴
モデル能力
使用事例
license: mit library_name: transformers
🧮 Fathom-R1-14B: 16Kコンテキスト下でR1蒸留14Bモデルを使用し、o4-miniレベルの数学推論を解き放つ499ドルのトレーニングレシピ
概要
推論モデルは、最高のパフォーマンスを発揮するために、高いポストトレーニング予算と非常に長い推論チェーン(32k/64kなど)を必要とすることが多いです。これらのパラメータが制限されている場合でも、これらのモデルを改善することは可能でしょうか?
この目的のために、私たちはまずFathom-R1-14Bを紹介します。これは、Deepseek-R1-Distilled-Qwen-14Bから派生した140億パラメータの推論言語モデルで、わずか499ドルの手頃なコストでポストトレーニングされ、16Kコンテキストウィンドウ内でSOTAの数学推論性能を達成しています。最新のオリンピアドレベルの試験であるAIME-25とHMMT-25において、私たちのモデルは**o3-mini-low、o1-mini、LightR1-14B(16k)**をpass@1スコア(64回の平均)で上回るだけでなく、**cons@64に関してクローズドソースのo4-mini (low)**に匹敵する性能を発揮します。AIME2025では52.71%、HMMT25では35.26%のPass@1精度を達成し(ベースモデルと比較してそれぞれ+7.2%、+5.2%の改善)、cons@64という追加のテストタイムコンピュートを提供すると、AIME2025で76.7%、HMMT25で56.7%の精度を達成します(ベースモデルと比較してそれぞれ+13.4%、+6.7%の改善)。私たちは、特定のトレーニングアプローチを使用して慎重にキュレートされたデータセットで教師ありファインチューニング(SFT)を行い、モデルマージを実施し、わずか499ドルの総コストでこの性能を達成しました!
また、Fathom-R1-14B-RSも紹介します。これは、ポストトレーニングコストがわずか967ドルで、最初のモデルと同等の性能を達成するもう1つのモデルです。これには、強化学習や教師ありファインチューニングなどのポストトレーニング技術を、多段階でコスト効率よく活用し、その後モデルマージを行っています。
私たちは、モデル、ポストトレーニングレシピ、データセットをオープンソース化しており、これがコミュニティが推論領域でさらに進歩するのに役立つと信じています。
🧪 動機
推論時間を長くすることで、難しいクエリやタスクにおいて優れた推論能力と専門家レベルのパフォーマンスが解き放たれることが示されています。DeepSeek R1シリーズモデルのオープンソースリリース以来、複数のオープンソースの取り組み[s1, LIMO, Light-R1]が、蒸留または非推論モデルを基にしたRLベースのファインチューニングを通じて結果を再現することに焦点を当てています(特に<=32Bスケールで)。しかし、ほとんどの場合、これらの取り組みはせいぜいR1シリーズモデルの性能に近づくことができても、それを超えることはできませんでした。並行して、最近のいくつかの方法[DeepScaleR, DeepCoder, Light-R1]は、既存の推論モデルから始め、これらのモデルの性能を拡張することに成功しました。しかし、これらの方法のトレーニング実行はしばしば高コストであり、より高い精度のために長いシーケンス長に依存しています。
長いCOTの中間ステップの正確性に疑問を投げかける最新の研究結果[Proof or Bluff ?, Reasoning models don't always say what they think]を考慮すると、解釈可能性、信頼性、安全性の観点から、推論チェーンが非効率的に長くならないようにすることが重要です。したがって、この研究では、非常に高い(24k/32k)シーケンス長でトレーニングせず、16kコンテキストに制限することで、推論モデルの性能向上を解き放つことを目指しています。非常に長い推論チェーンが本当に難しいタスクにはまだ必要ですが、推論チェーンを拡張する前に、まず低いコンテキストで性能を最大化することが重要だと私たちは考えています。
トレーニングデータセット
以下のオープンソースデータセットから高品質な数学コーパスをキュレートすることから始めました:
- Open-R1 - デフォルトサブセット
- Numina – Olympiads & AOPS_forum (文章問題、浮動小数点型の回答)
- 厳密な重複排除と汚染除去の後、約**~100Kのユニークな問題**を統合し、すべての後続のトレーニングの初期コーパスを形成しました。
🏗️ ポストトレーニング戦略
Fathom-R1-14B-v0.6のトレーニングレシピ
難しい問題とその推論チェーンに対するSFTは、推論能力を向上させるのに効果的であることが示されています。このチェックポイントでは、これを基盤としています。このトレーニング段階では、最大16kシーケンス長での反復的なカリキュラム学習戦略を通じて、さまざまな難易度レベルをカバーする数学的問題に対するモデルの性能を向上させることに焦点を当てています。カリキュラム学習(CL)は、LLMをトレーニングするための確立された技術であり、モデルは徐々により難しいタスクにさらされます。このアイデアは、より複雑な推論を段階的に足場を組むことで、一般化を強化し、過学習を減らすことです。ただし、私たちの場合はこれを反復的に行います。
データセットの準備では、まずOpenAIのo3miniモデルを使用して各問題の難易度を注釈付けします。平均以上の評価を受けた問題のみを保持し、さらに特定の範囲の解決率(0.2 < pass_rate < 0.7)を持つ問題のみを含めるようにフィルタリングします。これにより、5Kの例からなる反復的カリキュラム学習データセットが得られます。
総H100 GPU時間: 48
コスト: $136
Fathom-R1-14B-v0.4-RSのトレーニングレシピ
このチェックポイントを作成する際のコア戦略は、2段階のパイプラインです:まず、GRPOを使用して、Deepseek-R1-Distilled-Qwen-14Bの推論を、6kという低いシーケンス長で、慎重にキュレートされたデータセット上で改善し、最小限のトレーニングステップで迅速な改善を確保します。次に、最大16kトークンのシーケンス長で、難しいから非常に難しい難易度スペクトルの問題と、各問題に対応する可能な限り短い推論ソリューションのデータセットに対してSFTを実行します。
- 第1段階(効率的なテストタイム思考のためのRL活用): ポリシーが最小限の報酬を受け取りながら成長の余地を残すようにするシードデータセットをキュレートすることから始めます。このデータセットは、特定の範囲内の解決率(低いシーケンス長で)を持つ問題で構成されています。これが、7.7Kの問題からなるRL圧縮データセットです。DeepSeek-R1-Distill-Qwen-14Bをベースモデルとして、6kトークンのシーケンス長制限でGRPOアルゴリズムを使用してモデルをトレーニングします。クリップ比率の減少、応答長の減少、報酬の増加から、モデルが簡潔な応答を生成することを学ぶにつれて、性能が一貫して向上します。得られたモデルは、6kトークン以下の応答を生成することを学び、低いトークン制限でベースモデルを上回ります。

- 第2段階(より高いシーケンス長で効率的に推論を改善するためのSFT活用): RLチェックポイントを基盤として、より複雑な問題を解決するために必要なより詳細な推論を促進するために、16Kコンテキストウィンドウ下でSFTを実行します。この段階では、解決率が低い(0 < pass_rate <=0.4)難しい問題で構成されるデータセットを戦略的にキュレートします。その後、これらの問題に対する可能な限り短い推論チェーンを取得し、9.5Kの例からなるSFT最短チェーンデータセットを形成します。このデータセットで教師ありファインチューニングを行うことで、モデルは最大16Kのシーケンス長で推論を安定させることができます。結果として得られるモデルは、簡潔でありながら正確な数学的推論に最適化されたFathom-R1-14B-v0.4と名付けられています。
総H100 GPU時間: 293
コスト: $831
Fathom-R1-14B-v0.4のトレーニングレシピ
Fathom-R1-14B-v0.4-RSの開発中の第2ファインチューニング段階で気付いた性能向上を考慮し、コストをさらに削減するために、RLを排除し、Deepseek-R1-Distilled-Qwen-14Bベースモデルに対して直接第2段階のSFTを実行する実験を行いました。
総H100 GPU時間: 128
コスト: $363
モデルマージ
v0.6とv0.4モデルは異なるトレーニング方法論に従って開発されているため、線形マージを行って強みを組み合わせ、最終的に2つのチェックポイントを取得します。
- Fathom-R1-14B: Fathom-R1-14B-V0.6(反復的カリキュラムSFT)とFathom-R1-14B-V0.4(SFT-最短チェーン)をマージして取得
- Fathom-R1-14B-RS: Fathom-R1-14B-V0.6(反復的カリキュラムSFT)とFathom-R1-14B-V0.4(RL圧縮 + SFT-最短チェーン)をマージして取得
💰 ポストトレーニングコスト
私たちは、Fathom-R1-14Bモデルを、パフォーマンスとコンピュート予算のバランスを取ることに焦点を当てたリソース効率の高い戦略を使用して開発しました。以下は、使用されたGPU時間と発生したコストです。
モデルウェイト | GPU時間(H100) | コスト(USD) |
---|---|---|
Fathom-R1-14B-V0.4-RS | 293 | 831 |
Fathom-R1-14B-V0.4 | 128 | 363 |
Fathom-R1-14B-V0.6 | 48 | 136 |
Fathom-R1-14B-RS | 341 | 967 |
Fathom-R1-14B | 176 | 499 |
したがって、最終的なFathom-R1-14Bのトレーニングにはわずか499ドルしかかかりませんでした!この低いトレーニングコストは、o4-miniに匹敵する高レベルの数学的推論を16kシーケンス長予算内で499ドルで実現する私たちの方法の効率性を強調しています。
📊 評価
Fathom‑R1-14Bを、DeepSeek‑R1論文で導入された同じメトリクスとサンプリング構成、すなわちpass@1とcons@64を使用して評価します。ただし、私たちの評価は、DeepSeek‑R1の32,768トークンと比較して、16,384トークンの削減された出力予算で実施され、実用的な展開制約をよりよく反映しています。
- pass@1: pass@1は、問題ごとにk個のサンプル解決チェーン(私たちの実験ではk=64)に対する平均正解率として計算されます。
- cons@64: 問題ごとに64の推論チェーンをサンプリングし、多数決の精度を計算することで一貫性を評価します。
評価構成:
- 温度: 0.6
- top_p: 0.95
- サンプルチェーン数: 64
- コンテキスト: 16,384トークン
このセットアップにより、Fathom-R1-14Bの推論性能と安定性を、現実的なメモリと推論予算内でベンチマークしつつ、DeepSeek‑R1評価プロトコルとの互換性を維持できます。
推論を実行しメトリクスを計算するために、LIMOリポジトリが提供する評価フレームワークを利用します。
詳細な手順と実装の詳細については、eval/README.md
を参照してください。
結果
Fathom‑R1-14Bを、3つの挑戦的なベンチマーク(AIME25、HMMT25、GPQA)でいくつかのベースラインモデルと比較して評価します。それぞれについて、同じ評価構成でpass@1
とcons@64
を報告します。
モデル | AIME25 | HMMT25 | ||
---|---|---|---|---|
pass@1 | cons@64 | pass@1 | cons@64 | |
クローズドソースモデル | ||||
o1‑mini | 50.71 | 63.33 | 35.15 | 46.67 |
o3‑mini‑low | 42.60 | 53.33 | 26.61 | 33.33 |
o3‑mini‑medium | 72.24 | 83.33 | 49.21 | 60.00 |
o4-mini-low | 60.20 | 76.67 | 39.11 | 53.33 |
o1‑preview | 33.33 | 36.67 | 17.78 | 20.00 |
gpt‑4.5‑preview | 34.44 | 40.00 | 16.67 | 20.00 |
オープンソースモデル | ||||
DeepSeek-R1-Distill-Qwen-14B | 45.50 | 63.33 | 30.00 | 50.00 |
DeepSeek-R1-Distill-Qwen-32B | 49.64 | 73.33 | 33.02 | 53.33 |
DeepSeekR1‑670B | 61.25 | 83.33 | 42.19 | 56.67 |
LightR1‑14B | 51.15 | 76.67 | 33.75 | 50.00 |
Fathom‑R1-14B-V0.4-RS | 50.94 | 73.33 | 33.70 | 40.00 |
Fathom‑R1-14B-V0.4 | 50.94 | 70.00 | 34.53 | 56.67 |
Fathom‑R1-14B-V0.6 | 50.63 | 76.67 | 32.19 | 50.00 |
Fathom‑R1-14B-RS | 52.03 | 76.67 | 35.00 | 53.33 |
Fathom‑R1-14B | 52.71 | 76.67 | 35.26 | 56.67 |



