数学推理

# 数学推理

Openthinker3 7B GGUF

OpenThinker3-7B-GGUF 是 open-thoughts/OpenThinker3-7B 的量化版本，专为高效推理优化，基于 Qwen/Qwen2.5-7B-Instruct 微调，在数学、代码和科学问题上表现优异。

大型语言模型

Chinda Qwen3 4b Gguf

Chinda LLM 4B是iApp Technology推出的前沿泰语模型，基于Qwen3-4B架构构建，为泰国AI生态系统带来先进的思考能力。

大型语言模型

Openr1 Distill 7B

OpenR1-Distill-7B是基于Qwen2.5-Math-7B在Mixture-of-Thoughts数据集上后训练的版本，旨在教会语言模型进行逐步推理。

大型语言模型

Transformers 英语

Thinkless 1.5B RL DeepScaleR

Thinkless是一个通过强化学习训练的大语言模型，能够自适应选择简答或长链推理模式，显著降低推理计算成本。

大型语言模型

Thinkless 1.5B Warmup

无思框架（Thinkless）是一种可学习框架，使大模型能根据任务复杂度和自身能力，自适应选择简短推理或长链推理。

大型语言模型

Ophiuchi Qwen3 14B Instruct

基于Qwen3-14B架构构建的指令微调模型，专精数学推理、代码生成和事实准确性

大型语言模型

Transformers 支持多种语言

E1-Math-1.5B是基于DeepSeek-R1-Distilled-Qwen-1.5B微调的语言模型，支持弹性推理和GRPO方法，适用于预算受限的推演场景。

大型语言模型

Spec-T1-RL-7B 是一款专注于数学推理、算法问题解决和代码生成的高精度大语言模型，在技术基准测试中表现卓越。

大型语言模型

Safetensors 英语

SVECTOR-CORPORATION

Olmo 2 0425 1B Instruct GGUF

OLMo 2 1B指令版是基于OLMo-2-0425-1B-RLVR1模型的后训练变体，经过监督微调、DPO训练和RLVR训练，旨在实现多种任务的最先进性能。

大型语言模型英语

Phi 4 Mini Reasoning MLX 4bit

这是一个基于微软Phi-4-mini-reasoning模型转换的MLX格式4位量化版本，适用于文本生成任务。

大型语言模型

lmstudio-community

Phi 4 Reasoning GGUF

Phi-4-reasoning是基于Phi-4微调的先进推理模型，通过监督微调与强化学习，在数学、科学和编码等领域展现出卓越的推理能力。

大型语言模型

Phi 4 Mini Reasoning GGUF

Phi-4-mini-reasoning是一个基于合成数据的轻量级开放模型，专注于高质量、密集推理数据，并进一步微调以增强数学推理能力。

大型语言模型支持多种语言

Phi 4 Mini Reasoning

Phi-4-mini-reasoning 是一个轻量级的开源模型，专注于数学推理任务，支持128K令牌的上下文长度。

大型语言模型

Deepseek Prover V2 671B

专为Lean 4形式化定理证明设计的开源大语言模型，通过递归定理证明流程收集数据，结合非正式和形式化的数学推理。

大型语言模型

Phi 4 Mini Reasoning

Phi-4-mini-reasoning是一个轻量级的开源模型，专注于高质量、密集推理的数据，并进一步微调以获得更高级的数学推理能力。

大型语言模型

Transformers 支持多种语言

Olmo 2 0425 1B Instruct

OLMo 2 1B是基于allenai/OLMo-2-0425-1B-RLVR1模型的后训练变体，经过监督微调、DPO训练和RLVR训练，旨在实现多种任务的最先进性能。

大型语言模型

Transformers 英语

Acemath RL Nemotron 7B

基于深度学习的数学问题自动求解系统，支持代数、几何、微积分等多种数学题型

大型语言模型

Transformers 英语

Openmath Nemotron 32B

OpenMath-Nemotron-32B 是通过在 OpenMathReasoning 数据集上微调 Qwen2.5-32B 创建的数学推理模型，在多个数学基准测试中取得最先进结果。

大型语言模型

Transformers 英语

Openmath Nemotron 14B

OpenMath-Nemotron-14B 是基于 Qwen2.5-14B 在 OpenMathReasoning 数据集上微调的数学推理模型，在多个数学基准测试中取得最先进结果。

大型语言模型

Transformers 英语

Openmath Nemotron 14B Kaggle

基于Qwen2.5-14B微调的数学推理模型，在AIMO-2 Kaggle竞赛中获得第一名

大型语言模型

Transformers 英语

Openmath Nemotron 7B

OpenMath-Nemotron-7B 是基于 Qwen2.5-Math-7B 在 OpenMathReasoning 数据集上微调的数学推理模型，在多个数学基准测试中取得最先进结果。

大型语言模型

Transformers 英语

Turkish Gemma 9b V0.1

Turkish-Gemma-9b-v0.1是基于Gemma-2-9b开发的土耳其语文本生成模型，通过持续预训练、监督微调（SFT）、直接偏好优化（DPO）和模型合并技术优化而成。

大型语言模型

La Superba 14B Y.2

基于Qwen 2.5 14B架构构建的新一代语言模型，专为数学推理、编程和通用逻辑任务优化。

大型语言模型

Transformers 支持多种语言

Phi 4 Reasoning

Phi-4推理是基于Phi-4通过监督微调思维链轨迹数据集和强化学习训练的前沿开放权重推理模型，专注于数学、科学和编程技能。

大型语言模型

Transformers 支持多种语言

Phi 4 Mini Instruct Float8dq

Phi-4-mini-instruct模型经torchao进行float8动态激活和权重量化，在H100上实现36%显存降低和15-20%速度提升，几乎不影响精度。

大型语言模型

Transformers 其他

Nova 0.5 e3是一个7B参数的文本生成模型，展现出令人惊异的涌现特性，特别是在数学推理方面表现出色。

大型语言模型

Transformers 英语

Reasonflux F1 7B

ReasonFlux-F1-7B是基于思维模板扩展的分层大语言模型推理模型，通过模板增强推理轨迹微调而成，在多项推理任务中表现优异。

大型语言模型

Deepseek R1 14b Cot Math Reasoning Full GGUF

14B参数规模的数学推理大语言模型，支持思维链推理

大型语言模型

Thinkedit Deepseek Qwen 14b

ThinkEdit是一种轻量级权重编辑方法，通过识别并编辑少量注意力头，缓解大语言模型在推理任务中生成过度简短思维链的问题，提升推理准确性。

大型语言模型

Gemma Reasoning Genius

基于 Google Gemma-3-4B-IT 微调的模型，专门用于解决高中阶段各类问题

大型语言模型

Transformers 英语

Light R1 32B DS

Light-R1-32B-DS是一款近SOTA水平的32B数学模型，基于DeepSeek-R1-Distill-Qwen-32B微调，仅使用3K SFT数据即实现高性能。

大型语言模型

EXAONE Deep 2.4B AWQ

EXAONE Deep系列模型在数学和编程等推理任务中表现出色，本模型为24亿参数的AWQ量化版本

大型语言模型

Transformers 支持多种语言

Qwq Math IO 500M GGUF

QwQ-Math-IO-500M是一个专注于数学推理和输入输出处理的500M参数语言模型，提供GGUF格式的量化版本。

大型语言模型英语

Qwq 32B FP8 Dynamic

QwQ-32B的FP8量化版本，通过动态量化技术减少50%存储和内存需求，同时保持99.75%的原模型精度

大型语言模型

Qwq 32B FP8 Dynamic

QwQ-32B的FP8量化版本，通过动态量化技术减少50%存储和内存需求，同时保持99.75%的原始模型精度

大型语言模型

SoT_DistilBERT是基于DistilBERT微调的分类模型，用于根据思维草图(SoT)框架为给定查询选择最佳推理范式。

Transformers 英语

Yulan Mini Instruct

YuLan-Mini-Instruct是一个24亿参数的紧凑但强大的文本生成模型，专注于数学和代码推理任务，支持中英文。

大型语言模型

Transformers 支持多种语言

Lucie 7B Instruct V1.1

基于Lucie-7B微调的多语言因果语言模型，支持法语和英语，专注于指令跟随和文本生成任务。

大型语言模型支持多种语言

Deepseek R1 Distill Qwen 32B Quantized.w8a8

DeepSeek-R1-Distill-Qwen-32B的INT8量化版本，通过权重量化和激活值量化减少显存占用并提升计算效率。

大型语言模型

Llama 1B GRPO Final

GSM8K 是一个包含8.5K个高质量小学数学问题的数据集，用于评估模型的数学推理能力。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase