ReasonFlux - F1 - 32Bオープンソース大規模言語モデル - 推論能力を強化するための微調整、推論タスクで卓越したパフォーマンス！

ホーム

Reasonflux F1

Gen-Verseによって開発

ReasonFlux-F1-32Bは思考テンプレート拡張に基づく階層型大規模言語モデルで、テンプレート強化推論軌跡の微調整により、推論タスクで優れた性能を発揮します。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #数学推論強化 #思考テンプレート推論 #競技問題解決

ダウンロード数 123

リリース時間 : 3/21/2025

モデル概要

ReasonFlux-F1-32Bは革命的テンプレート強化推論パラダイムの大規模言語モデルで、deepseek-ai/DeepSeek-R1-Distill-Qwen-32Bを微調整し、複雑な推論タスクに特化しています。

モデル特徴

テンプレート強化推論

革命的テンプレート強化推論パラダイムを採用し、複雑な推論タスクの性能を大幅に向上

階層型推論能力

階層型推論アーキテクチャで複雑な問題を処理し、段階的に分解・解決

高性能推論

複数の推論ベンチマークで同クラスの32Bモデルを凌駕

モデル能力

複雑な数学問題解決

論理的推論

多段階問題解答

長文理解

使用事例

数学競技

AIME数学競技問題解答

アメリカ数学招待試合(AIME)の複雑な数学問題を解決

AIME2024で76.7%のPass@1精度を達成

学術研究

GPQAダイヤモンド級問題解答

GPQAダイヤモンド級難度の問題を解決

GPQA-Diamondで67.2%のPass@1精度を達成

🚀 ReasonFlux: 階層的LLM推論における思考テンプレートの拡張

革新的なテンプレート拡張推論パラダイムにより、32Bモデルが推論タスクにおいてo1-miniやDeepSeek-R1蒸留モデルを上回る性能を発揮します。

タスク/Pass@1	ReasonFlux-F1-32B	ReasonFlux-Zero-32B	R1-Distill-32B	o1-mini	LIMO -32B	s1-32B
MATH500	96.0	91.2	94.3	90.0	90.6	93.0
AIME 2024	76.7	56.7	72.6	56.7	50.0	56.7
AIME 2025	53.3	37.2	46.67	50.8	37.2	49.3
GPQA-Diamond	67.2	61.2	62.1	60.0	65.2	59.6

📦 モデル情報

プロパティ	詳細
ライブラリ名	transformers
ライセンス	other
ベースモデル	deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
タグ	llama-factory, full, generated_from_trainer
モデル名	ReasonFlux-F1-32B

✨ 主な機能

ReasonFlux-F1-32Bは、ReasonFlux-Zeroからのテンプレート拡張推論軌道を活用して微調整されたSOTAレベルの推論LLMです。

GitHubリポジトリ: Gen-Verse/ReasonFlux
論文: ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
データセット: Gen-Verse/ReasonFlux-F1-SFT

📊 評価

以下は、ReasonFlux-F1-32BのAIME2024、AIM2025、MATH500、GPQA-Diamondなどの難しい推論タスクでの評価結果です。公平な比較のため、ReasonFlux-F1の評価スクリプトを使用しています。

モデル	AIME2024@pass1	AIME2025@pass1	MATH500@pass1	GPQA@pass1
QwQ-32B-Preview	46.7	37.2	90.6	65.2
LIMO-32B	56.3	44.5	94.8	58.1
s1-32B	56.7	49.3	93.0	59.6
OpenThinker-32B	66.0	53.3	94.8	60.1
R1-Distill-32B	70.0	46.7	92.0	59.6
ReasonFlux-Zero-32B	56.7	37.2	91.2	61.2
ReasonFlux-F1-32B	76.7	53.3	96.0	67.2

💻 使用例

基本的な使用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = 'Gen-Verse/ReasonFlux-F1'

model = LLM(
    model_id,
    tensor_parallel_size=8,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

sampling_params = SamplingParams(
    max_tokens=32768,
)
# 2022 AIME I Problems/Problem 15
question = """Let \(x, y\), and \(z\) be positive real numbers satisfying the system of equations:
\[
\begin{array}{c}
\sqrt{2 x-x y}+\sqrt{2 y-x y}=1 \\
\sqrt{2 y-y z}+\sqrt{2 z-y z}=\sqrt{2} \\
\sqrt{2 z-z x}+\sqrt{2 x-z x}=\sqrt{3} .
\end{array}
\]
Then \(\left[(1-x)(1-y)(1-z)\right]^{2}\) can be written as \(\frac{m}{n}\), where \(m\) and \(n\) are relatively prime positive integers. Find \(m+n\)."""
ds_prompt="<｜User｜>\n" + question + "<｜Assistant｜>\n"
output = model.generate(ds_prompt, sampling_params=sampling_params)
print(output[0].outputs[0].text)

📄 引用

@article{yang2025reasonflux,
  title={ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates},
  author={Yang, Ling and Yu, Zhaochen and Cui, Bin and Wang, Mengdi},
  journal={arXiv preprint arXiv:2502.06772},
  year={2025}
}