數學推理

# 數學推理

Openthinker3 7B GGUF

OpenThinker3-7B-GGUF 是 open-thoughts/OpenThinker3-7B 的量化版本，專為高效推理優化，基於 Qwen/Qwen2.5-7B-Instruct 微調，在數學、代碼和科學問題上表現優異。

大型語言模型

Chinda Qwen3 4b Gguf

Chinda LLM 4B是iApp Technology推出的前沿泰語模型，基於Qwen3-4B架構構建，為泰國AI生態系統帶來先進的思考能力。

大型語言模型

Openr1 Distill 7B

OpenR1-Distill-7B是基於Qwen2.5-Math-7B在Mixture-of-Thoughts數據集上後訓練的版本，旨在教會語言模型進行逐步推理。

大型語言模型

Transformers 英語

Thinkless 1.5B RL DeepScaleR

Thinkless是一個通過強化學習訓練的大語言模型，能夠自適應選擇簡答或長鏈推理模式，顯著降低推理計算成本。

大型語言模型

Thinkless 1.5B Warmup

無思框架（Thinkless）是一種可學習框架，使大模型能根據任務複雜度和自身能力，自適應選擇簡短推理或長鏈推理。

大型語言模型

Ophiuchi Qwen3 14B Instruct

基於Qwen3-14B架構構建的指令微調模型，專精數學推理、代碼生成和事實準確性

大型語言模型

Transformers 支持多種語言

E1-Math-1.5B是基於DeepSeek-R1-Distilled-Qwen-1.5B微調的語言模型，支持彈性推理和GRPO方法，適用於預算受限的推演場景。

大型語言模型

Spec-T1-RL-7B 是一款專注於數學推理、算法問題解決和代碼生成的高精度大語言模型，在技術基準測試中表現卓越。

大型語言模型

Safetensors 英語

SVECTOR-CORPORATION

Olmo 2 0425 1B Instruct GGUF

OLMo 2 1B指令版是基於OLMo-2-0425-1B-RLVR1模型的後訓練變體，經過監督微調、DPO訓練和RLVR訓練，旨在實現多種任務的最先進性能。

大型語言模型英語

Phi 4 Mini Reasoning MLX 4bit

這是一個基於微軟Phi-4-mini-reasoning模型轉換的MLX格式4位量化版本，適用於文本生成任務。

大型語言模型

lmstudio-community

Phi 4 Reasoning GGUF

Phi-4-reasoning是基於Phi-4微調的先進推理模型，通過監督微調與強化學習，在數學、科學和編碼等領域展現出卓越的推理能力。

大型語言模型

Phi 4 Mini Reasoning GGUF

Phi-4-mini-reasoning是一個基於合成數據的輕量級開放模型，專注於高質量、密集推理數據，並進一步微調以增強數學推理能力。

大型語言模型支持多種語言

Phi 4 Mini Reasoning

Phi-4-mini-reasoning 是一個輕量級的開源模型，專注於數學推理任務，支持128K令牌的上下文長度。

大型語言模型

Deepseek Prover V2 671B

專為Lean 4形式化定理證明設計的開源大語言模型，通過遞歸定理證明流程收集數據，結合非正式和形式化的數學推理。

大型語言模型

Phi 4 Mini Reasoning

Phi-4-mini-reasoning是一個輕量級的開源模型，專注於高質量、密集推理的數據，並進一步微調以獲得更高級的數學推理能力。

大型語言模型

Transformers 支持多種語言

Olmo 2 0425 1B Instruct

OLMo 2 1B是基於allenai/OLMo-2-0425-1B-RLVR1模型的後訓練變體，經過監督微調、DPO訓練和RLVR訓練，旨在實現多種任務的最先進性能。

大型語言模型

Transformers 英語

Acemath RL Nemotron 7B

基於深度學習的數學問題自動求解系統，支持代數、幾何、微積分等多種數學題型

大型語言模型

Transformers 英語

Openmath Nemotron 32B

OpenMath-Nemotron-32B 是通過在 OpenMathReasoning 數據集上微調 Qwen2.5-32B 創建的數學推理模型，在多個數學基準測試中取得最先進結果。

大型語言模型

Transformers 英語

Openmath Nemotron 14B

OpenMath-Nemotron-14B 是基於 Qwen2.5-14B 在 OpenMathReasoning 數據集上微調的數學推理模型，在多個數學基準測試中取得最先進結果。

大型語言模型

Transformers 英語

Openmath Nemotron 14B Kaggle

基於Qwen2.5-14B微調的數學推理模型，在AIMO-2 Kaggle競賽中獲得第一名

大型語言模型

Transformers 英語

Openmath Nemotron 7B

OpenMath-Nemotron-7B 是基於 Qwen2.5-Math-7B 在 OpenMathReasoning 數據集上微調的數學推理模型，在多個數學基準測試中取得最先進結果。

大型語言模型

Transformers 英語

Turkish Gemma 9b V0.1

Turkish-Gemma-9b-v0.1是基於Gemma-2-9b開發的土耳其語文本生成模型，通過持續預訓練、監督微調（SFT）、直接偏好優化（DPO）和模型合併技術優化而成。

大型語言模型

La Superba 14B Y.2

基於Qwen 2.5 14B架構構建的新一代語言模型，專為數學推理、編程和通用邏輯任務優化。

大型語言模型

Transformers 支持多種語言

Phi 4 Reasoning

Phi-4推理是基於Phi-4通過監督微調思維鏈軌跡數據集和強化學習訓練的前沿開放權重推理模型，專注於數學、科學和編程技能。

大型語言模型

Transformers 支持多種語言

Phi 4 Mini Instruct Float8dq

Phi-4-mini-instruct模型經torchao進行float8動態激活和權重量化，在H100上實現36%顯存降低和15-20%速度提升，幾乎不影響精度。

大型語言模型

Transformers 其他

Nova 0.5 e3是一個7B參數的文本生成模型，展現出令人驚異的湧現特性，特別是在數學推理方面表現出色。

大型語言模型

Transformers 英語

Reasonflux F1 7B

ReasonFlux-F1-7B是基於思維模板擴展的分層大語言模型推理模型，通過模板增強推理軌跡微調而成，在多項推理任務中表現優異。

大型語言模型

Deepseek R1 14b Cot Math Reasoning Full GGUF

14B參數規模的數學推理大語言模型，支持思維鏈推理

大型語言模型

Thinkedit Deepseek Qwen 14b

ThinkEdit是一種輕量級權重編輯方法，通過識別並編輯少量注意力頭，緩解大語言模型在推理任務中生成過度簡短思維鏈的問題，提升推理準確性。

大型語言模型

Gemma Reasoning Genius

基於 Google Gemma-3-4B-IT 微調的模型，專門用於解決高中階段各類問題

大型語言模型

Transformers 英語

Light R1 32B DS

Light-R1-32B-DS是一款近SOTA水平的32B數學模型，基於DeepSeek-R1-Distill-Qwen-32B微調，僅使用3K SFT數據即實現高性能。

大型語言模型

EXAONE Deep 2.4B AWQ

EXAONE Deep系列模型在數學和編程等推理任務中表現出色，本模型為24億參數的AWQ量化版本

大型語言模型

Transformers 支持多種語言

Qwq Math IO 500M GGUF

QwQ-Math-IO-500M是一個專注於數學推理和輸入輸出處理的500M參數語言模型，提供GGUF格式的量化版本。

大型語言模型英語

Qwq 32B FP8 Dynamic

QwQ-32B的FP8量化版本，通過動態量化技術減少50%存儲和內存需求，同時保持99.75%的原模型精度

大型語言模型

Qwq 32B FP8 Dynamic

QwQ-32B的FP8量化版本，通過動態量化技術減少50%存儲和內存需求，同時保持99.75%的原始模型精度

大型語言模型

SoT_DistilBERT是基於DistilBERT微調的分類模型，用於根據思維草圖(SoT)框架為給定查詢選擇最佳推理範式。

Transformers 英語

Yulan Mini Instruct

YuLan-Mini-Instruct是一個24億參數的緊湊但強大的文本生成模型，專注於數學和代碼推理任務，支持中英文。

大型語言模型

Transformers 支持多種語言

Lucie 7B Instruct V1.1

基於Lucie-7B微調的多語言因果語言模型，支持法語和英語，專注於指令跟隨和文本生成任務。

大型語言模型支持多種語言

Deepseek R1 Distill Qwen 32B Quantized.w8a8

DeepSeek-R1-Distill-Qwen-32B的INT8量化版本，通過權重量化和激活值量化減少顯存佔用並提升計算效率。

大型語言模型

Llama 1B GRPO Final

GSM8K 是一個包含8.5K個高質量小學數學問題的數據集，用於評估模型的數學推理能力。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase