FairyR1-32Bオープンソース大型言語モデル - 無料でデプロイし、数学とプログラミングタスクを支援

ホーム

Fairyr1 32B

PKU-DS-LABによって開発

FairyR1-32Bは、DeepSeek-R1-Distill-Qwen-32Bを基にした効率的な大規模言語モデルで、最適化された蒸留と統合プロセスにより、数学とプログラミングタスクで優れた性能を発揮します。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #数学とプログラミングの両方に優れる #効率的な蒸留モデル #小規模で高性能

ダウンロード数 372

リリース時間 : 5/23/2025

モデル概要

FairyR1-32Bは数学とプログラミングタスクに特化した効率的な言語モデルで、タスク指向の微調整とモデル統合技術により、モデル規模と推論コストを大幅に削減しながら高性能を維持しています。

モデル特徴

効率的な性能

約5%のパラメータのみを使用しながら、数学とプログラミングタスクで大規模モデルと同等以上の性能を発揮。

最適化された蒸留プロセス

多段階のデータ選別と再構築により、高品質な訓練サンプルを精選し、モデル性能を向上。

モデル統合技術

AcreeFusionツールを使用して複数の専門家モデルを統合し、アーキテクチャを簡素化してコストを削減。

モデル能力

数学問題解答

コード生成

科学質問応答

テキスト生成

使用事例

教育

数学競技問題解答

AIMEなどの数学競技問題を解答し、詳細な解法ステップを提供。

AIME 2024および2025テストで優れた成績。

プログラミング

コード生成と最適化

様々なプログラミング言語に対応したコード生成と最適化。

LiveCodeBenchテストで同類モデルを上回る性能。

🚀 PKU-DS-LABによるFairyR1-32Bへようこそ！

FairyR1-32Bは、効率的な大規模言語モデル（LLM）です。パラメータ数が大規模モデルの約5%に過ぎないにも関わらず、特定のタスクではそれらを上回る性能を発揮します。

ベンチマーク	DeepSeek-R1-671B	DeepSeek-R1-Distill-Qwen-32B	FairyR1-32B (PKU)
AIME 2024 (数学)	79.8	72.6	80.4
AIME 2025 (数学)	70.0	52.9	75.6
LiveCodeBench (コード)	65.9	57.2	67.7
GPQA-Diamond (科学QA)	71.5	62.1	60.0

🚀 クイックスタート

このセクションでは、FairyR1-32Bの概要と特徴について説明します。

✨ 主な機能

概要

FairyR1-32Bは、DeepSeek-R1-Distill-Qwen-32Bをベースにした大規模言語モデルです。「distill-and-merge」パイプラインを利用し、タスクに特化した微調整とモデルマージ技術を組み合わせることで、大幅に縮小されたサイズと推論コストで競争力のある性能を実現しています。このプロジェクトはNSFC（Grant 624B2005）によって資金提供されています。

モデルの詳細

FairyR1モデルは、以前の研究 TinyR1 の更なる発展です。コアとなる「Branch-Merge Distillation」アプローチを維持しつつ、データ処理とモデルアーキテクチャに改良を加えています。

データ蒸留パイプラインを見直し、数学用のAIMO/NuminaMath-1.5やコード用のOpenThoughts-114kなどのデータセットからの生の例を、複数の「教師」モデルに通して候補回答を生成しました。これらの候補を慎重に選択、再構築、精錬し、特に思考連鎖（CoT）について改善を行いました。その後、多段階のフィルタリングを適用し、数学問題の自動正解チェックやトークン数に基づく選択（数学サンプルは2K - 8Kトークン、コードサンプルは4K - 8Kトークン）を行いました。これにより、約6.6Kの数学サンプルと3.8Kのコードサンプルからなる2つのターゲットトレーニングセットが得られました。

モデリング側では、以前のように3つの専門モデルをトレーニングする代わりに、数学とコードの2つのドメイン専門家に絞り、同一のハイパーパラメータ（学習率やバッチサイズなど）で約5エポックトレーニングしました。その後、AcreeFusion ツールを使用してこれらの専門家を1つの32Bパラメータモデルに融合しました。データ蒸留ワークフローと専門家モデルのマージプロセスを合理化することで、FairyR1は大規模モデルのごく一部のパラメータと計算コストでタスクにおける競争力のある結果を達成します。

結果分析と主要な貢献

テスト結果から、FairyR1はAIME 2025とLiveCodeBenchのベンチマークでDeepSeek-R1-671Bよりもわずかに高いスコアを記録し、AIME 2024では同等の性能を発揮しました。

これらの結果は、DeepSeek‑R1‑Distill‑Qwen‑32Bをベースにし、ターゲット指向の技術を適用することで、FairyR1が数学とプログラミングのドメインで大規模モデルの約5%のパラメータ数で同等またはわずかに優れた性能を達成できることを示しています。ただし、科学的質問応答などの他の分野では性能のギャップが残る可能性があります。

この研究は、最適化されたデータ処理とモデル融合技術を通じて、モデルサイズと潜在的な推論コストを大幅に削減しながら、特定タスクの強力な性能を維持することの可能性を実証しています。

📚 ドキュメント

モデルの説明

属性	詳情
開発者	PKU-DS-LAB
モデルタイプ	推論モデル
言語	英語、中国語
ライセンス	apache-2.0
微調整元のモデル	DeepSeek-R1-Distill-Qwen-32B

トレーニングデータ

数学：AI-MO/NuminaMath-1.5 のデフォルトサブセットからの6.6kのCoT軌跡
コーディング：open-thoughts/OpenThoughts-114k のコーディングサブセットからの3.8kのCoT軌跡

ハードウェア利用

ハードウェアタイプ：32 × NVIDIA-H100
使用時間（数学）：2.5時間
使用時間（コーディング）：1.5時間
モデルマージ：CPUで約40分、GPUは不要

評価セット

AIME 2024/2025（数学）：32回評価し、平均精度を報告します。AIME 2024 は30問の問題を含み、AIME 2025 はPart IとPart IIから構成され、合計30問です。
LiveCodeBench (コード)：8回評価し、平均精度を報告します。データセットバージョンは "release_v5"（日付範囲：2024-08-01から2025-02-01）で、279問の問題から構成されています。
GPQA-Diamond (科学QA)：8回評価し、平均精度を報告します。データセットは198問の問題から構成されています。