# 数学推論強化

Acereason Nemotron 7B
その他
強化学習でトレーニングされた数学とコード推論モデル、DeepSeek-R1-Distilled-Qwen-7Bをベースに、数学とコード推論タスクで優れたパフォーマンスを発揮
大規模言語モデル Transformers
A
nvidia
4,278
10
Qwen3 4B Llamafile
Apache-2.0
Qwen3-4BはQwenシリーズ最新世代の大規模言語モデルで、4Bパラメータ規模を持ち、128kコンテキストウィンドウと100以上の言語をサポートし、推論、指示追従、エージェント能力において優れた性能を発揮します。
大規模言語モデル
Q
Mozilla
995
2
Qwen3 235B A22B GGUF
Apache-2.0
Qwen3は通義千問シリーズの大規模言語モデルの最新バージョンで、密モデルと混合専門家(MoE)モデルの完全なセットを提供します。膨大なトレーニングデータに基づき、Qwen3は推論能力、命令追従、エージェント機能、多言語サポートにおいて画期的な進歩を実現しました。
大規模言語モデル
Q
Qwen
1,576
2
Phi 4 Reasoning Plus
MIT
Phi-4推論強化版はマイクロソフトリサーチが開発した140億パラメータのオープンソース推論モデルで、教師あり微調整と強化学習による最適化を経ており、数学、科学、プログラミング分野の高度な推論能力に特化しています。
大規模言語モデル Transformers 複数言語対応
P
unsloth
189
2
Phi 4 Reasoning Plus GGUF
MIT
Phi-4-reasoning-plus はマイクロソフトが開発した推論能力を強化した大規模言語モデルで、複雑な数学問題や多段階推論タスクに最適化されています。
大規模言語モデル 複数言語対応
P
lmstudio-community
5,205
4
Qwen3 1.7B
Apache-2.0
Qwen3は通義千問シリーズの最新世代大規模言語モデルで、完全な密モデルと専門家混合(MoE)モデルの組み合わせを提供します。大規模なトレーニングに基づき、Qwen3は推論、命令追従、エージェント能力、多言語サポートにおいて画期的な進歩を遂げました。
大規模言語モデル Transformers
Q
Qwen
395.72k
113
Qwen2.5 Math 7B 16k Think
MIT
Qwen2.5-Math-7Bを基に改良されたモデルで、コンテキストウィンドウを拡張し推論能力を最適化
大規模言語モデル Transformers
Q
Elliott
3,496
1
DAPO Qwen 32B
Apache-2.0
Qwen2.5-32Bモデルを基にDAPOアルゴリズムでトレーニングされた大規模言語モデルで、数学問題解決と多言語テキスト生成に特化
大規模言語モデル Safetensors 複数言語対応
D
BytedTsinghua-SIA
7,241
3
Nova 0.5 R1 7B
Apache-2.0
OpenThoughts-114k-math数学データセット及びその他の思考能力強化トレーニングセットに基づいて構築された高性能推論モデル
大規模言語モデル Transformers 英語
N
oscar128372
18
2
Codev R1 Distill Qwen 7B
DeepSeek-R1から蒸留されたVerilog RTLコード生成モデルで、Verilogベンチマークで優れた性能を発揮
大規模言語モデル Transformers
C
zhuyaoyu
154
2
Reasonflux F1
その他
ReasonFlux-F1-32Bは思考テンプレート拡張に基づく階層型大規模言語モデルで、テンプレート強化推論軌跡の微調整により、推論タスクで優れた性能を発揮します。
大規模言語モデル Transformers
R
Gen-Verse
123
8
Open RS1
MIT
強化学習で強化された小型大規模言語モデルで、1.5Bパラメータモデルの推論能力向上に焦点
大規模言語モデル Transformers
O
knoveleng
6,229
4
Open Reasoner Zero 32B
MIT
スケーラビリティ、簡潔さ、使いやすさに焦点を当てた大規模推論指向強化学習の最初のオープンソース実装
大規模言語モデル Transformers
O
Open-Reasoner-Zero
498
29
Skywork O1 Open PRM Qwen 2.5 1.5B
その他
Skywork o1 Open-PRM-Qwen-2.5-1.5BはQwen2.5-Math-1.5B-Instructをベースに訓練された増分プロセス報酬モデルで、小規模な複雑問題解決能力の強化を目的として設計されています。
大規模言語モデル
S
Skywork
4,368
30
Skywork O1 Open PRM Qwen 2.5 7B
その他
Skywork o1オープンモデルシリーズの7Bパラメータ規模モデル、Qwen2.5-Math-7B-Instructをベースに訓練、段階的プロセス報酬強化の推論能力を備える
大規模言語モデル
S
Skywork
3,608
50
Llama 3.2 Rabbit Ko 3B Instruct
ニンジンLlama-3.2 Rabbit Koは指令微調整された大規模言語モデルで、韓国語と英語をサポートし、テキスト生成タスクで優れた性能を発揮します。
大規模言語モデル Safetensors 複数言語対応
L
CarrotAI
2,169
9
Math Shepherd Mistral 7b Rl
Math-Shepherdの段階的強化学習に基づく数学問題解決モデルで、GSM8KとMATHデータセットで優れた性能を発揮
大規模言語モデル Transformers
M
peiyi9979
44
6
Mathgenie InterLM 20B
Apache-2.0
MathGenieは、問題逆翻訳によって合成データを生成し、大規模言語モデルの数学推論能力を強化するモデルです。
大規模言語モデル Transformers 複数言語対応
M
MathGenie
32
8
Codellama 7b Hf ReFT GSM8k
強化学習による微調整で大規模言語モデルの推論汎化能力を強化、Codellamaをベースに微調整され、コード生成と理解タスクに適しています。
大規模言語モデル Transformers
C
lqtrung1998
38
1
SOLAR Math 2x10.7b V0.2
2つのSolar-10.7B命令微調整モデルを統合した大規模言語モデルで、GPT-3.5やGemini Proと同等の性能を持ち、Mixtral-8x7bを上回る
大規模言語モデル Transformers
S
macadeliccc
92
4
Metamath Mistral 7B
Apache-2.0
MetaMath-Mistral-7BはMistral-7BモデルをMetaMathQAデータセットでファインチューニングした数学推論モデルで、数学問題解決能力が大幅に向上しています。
大規模言語モデル Transformers
M
meta-math
2,152
95
Metamath 7B V1.0
MetaMath-Llemma-7BはMetaMathQAデータセットで全パラメータファインチューニングされた数学推論モデルで、GSM8KとMATHデータセットで優れた性能を発揮します。
大規模言語モデル Transformers
M
meta-math
278
27
Wizardmath 7B V1.0
WizardMathは、数学推論能力を向上させるために強化進化命令(RLEIF)によって強化された大規模言語モデルです。
大規模言語モデル Transformers
W
WizardLMTeam
653
54
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase