# 數學推理增強

The Techer
基於Qwen3-1.7B微調的版本,通過1-shot強化學習與可驗證獎勵(RLVR)方法增強了數學推理能力,在數學基準測試和編碼任務中表現出色。
大型語言模型 Safetensors
T
shiviklabs
850
0
Deepseek R1 0528 Bf16
MIT
DeepSeek-R1-0528是DeepSeek R1模型的小版本升級,通過增加計算資源和算法優化顯著提升了推理能力,在數學、編程和通用邏輯等多個基準評估中表現出色。
大型語言模型 Transformers
D
cognitivecomputations
129
1
Deepseek R1 0528 Qwen3 8B GPTQ Int4 Int8Mix
MIT
基於DeepSeek-R1-0528-Qwen3-8B開發的量化版本模型,在推理能力、減少幻覺率等方面有顯著提升,適用於多種自然語言處理任務。
大型語言模型 Transformers
D
QuantTrio
154
1
Autogressive 32B
Apache-2.0
Autoregressive-32B是基於自迴歸建模構建的Multiverse-32B基線模型,為文本生成任務提供了強大的支持。
大型語言模型 Transformers
A
Multiverse4FM
1,945
1
Qwen3 4B Llamafile
Apache-2.0
Qwen3-4B是Qwen系列最新一代的大語言模型,具有4B參數規模,支持128k上下文窗口和100多種語言,在推理、指令遵循和代理能力方面表現優異。
大型語言模型
Q
Mozilla
995
2
Qwen3 235B A22B GGUF
Apache-2.0
Qwen3是通義千問系列大語言模型的最新版本,提供稠密模型與混合專家(MoE)模型的完整套件。基於海量訓練數據,Qwen3在推理能力、指令遵循、智能體功能及多語言支持方面實現突破性進展。
大型語言模型
Q
Qwen
1,576
2
Qwen3 4B AWQ
Apache-2.0
Qwen3-4B是通義千問系列最新一代40億參數大語言模型,支持思維與非思維模式切換,具備強大的推理、指令遵循和智能體能力。
大型語言模型 Transformers
Q
Qwen
2,755
4
Phi 4 Reasoning Plus
MIT
Phi-4推理增強版是微軟研究院開發的140億參數開源推理模型,通過監督微調和強化學習優化,專注於數學、科學和編程領域的高級推理能力。
大型語言模型 Transformers 支持多種語言
P
unsloth
189
2
Phi 4 Reasoning Plus GGUF
MIT
Phi-4-reasoning-plus 是微軟開發的增強推理能力的大語言模型,專為複雜數學問題和多步驟推理任務優化。
大型語言模型 支持多種語言
P
lmstudio-community
5,205
4
Qwen3 1.7B
Apache-2.0
Qwen3是通義千問系列最新一代大語言模型,提供完整的密集模型和專家混合(MoE)模型組合。基於大規模訓練,Qwen3在推理、指令遵循、智能體能力和多語言支持方面取得突破性進展。
大型語言模型 Transformers
Q
Qwen
395.72k
113
Qwen2.5 Math 7B 16k Think
MIT
基於Qwen2.5-Math-7B改進的模型,擴展了上下文窗口並優化了推理能力
大型語言模型 Transformers
Q
Elliott
3,496
1
Nova 0.5 R1 7B
Apache-2.0
基於OpenThoughts-114k-math數學數據集及其他增強思維能力訓練集打造的高性能推理模型
大型語言模型 Transformers 英語
N
oscar128372
18
2
Codev R1 Distill Qwen 7B
基於DeepSeek-R1蒸餾的Verilog RTL代碼生成模型,在Verilog基準測試中表現優異
大型語言模型 Transformers
C
zhuyaoyu
154
2
Reasonflux F1
其他
ReasonFlux-F1-32B是基於思維模板擴展的分層大語言模型,通過模板增強推理軌跡微調,在推理任務中表現優異。
大型語言模型 Transformers
R
Gen-Verse
123
8
Open RS1
MIT
基於強化學習增強的小型大語言模型,專注於提升1.5B參數模型的推理能力
大型語言模型 Transformers
O
knoveleng
6,229
4
Qwq Bakeneko 32b
Apache-2.0
基於Qwen2.5-32B和QwQ-32B合併優化的日語對話模型,通過Chat Vector和ORPO技術增強指令跟隨能力
大型語言模型 Transformers 日語
Q
rinna
1,597
17
Thinkedit Deepseek Llama3 8b
MIT
ThinkEdit是一種輕量級權重編輯方法,通過識別並編輯少量注意力頭來緩解推理模型生成過於簡短思維鏈的問題,提升推理準確性。
大型語言模型 Transformers
T
cesun
55
2
Sombrero QwQ 32B Elite11
Apache-2.0
基於Qwen的QwQ 32B架構優化的大語言模型,專注於高效內存利用、編程輔助和複雜問題解決。
大型語言模型 Transformers 英語
S
prithivMLmods
1,201
8
Li 14b V0.4 Slerp0.1
這是一個使用SLERP方法合併的14B參數規模的大語言模型,由li-14b-v0.4和miscii-14b-0218兩個基礎模型合併而成。
大型語言模型 Transformers
L
wanlige
70
7
STILL 3 1.5B Preview
STILL-3-1.5B-preview是一款採用強化學習技術增強推理能力的慢思考模型,在AIME基準測試中達到39.33%準確率
大型語言模型 Transformers
S
RUC-AIBOX
2,186
10
Phi 4 Model Stock V2
Phi-4-Model-Stock-v2是基於多個Phi-4變體模型合併而成的大語言模型,採用model_stock合併方法,在多個基準測試中表現良好。
大型語言模型 Transformers
P
bunnycore
56
2
Aceinstruct 72B
AceInstruct 是一系列先進的 SFT 模型,基於 Qwen 改進,適用於編碼、數學和通用任務。
大型語言模型 Safetensors 支持多種語言
A
nvidia
1,584
18
Sky T1 32B Preview GGUF
Sky-T1-32B-Preview是一個32B參數的大語言模型,經過llama.cpp的imatrix量化處理,適用於文本生成任務。
大型語言模型 英語
S
bartowski
1,069
81
Dolphin3.0 Llama3.2 3B GGUF
基於Llama3.2架構的3B參數大語言模型,支持英文文本生成任務,採用llama.cpp進行imatrix量化
大型語言模型 英語
D
bartowski
5,665
15
Luxllama
Apache-2.0
LuxLlama是基於Meta-Llama-3.1-8B-Instruct模型微調的版本,專門優化了盧森堡語理解和生成能力以及通用和數學推理能力。
大型語言模型 Transformers 支持多種語言
L
aiplanet
33
2
Skywork O1 Open PRM Qwen 2.5 1.5B
其他
Skywork o1 Open-PRM-Qwen-2.5-1.5B是基於Qwen2.5-Math-1.5B-Instruct訓練的增量過程獎勵模型,專為增強小規模複雜問題求解能力而設計。
大型語言模型
S
Skywork
4,368
30
Skywork O1 Open PRM Qwen 2.5 7B
其他
Skywork o1開放模型系列中的7B參數規模模型,基於Qwen2.5-Math-7B-Instruct訓練,具備漸進式過程獎勵增強的推理能力
大型語言模型
S
Skywork
3,608
50
Llama 3.2 Rabbit Ko 3B Instruct
胡蘿蔔Llama-3.2 Rabbit Ko是一款經過指令微調的大語言模型,支持韓語和英語,在文本生成任務中表現出色。
大型語言模型 Safetensors 支持多種語言
L
CarrotAI
2,169
9
L3.1 8B Sunfall Stheno V0.6.1
Sunfall模型是基於Llama-3.1-8B-Stheno-v3.4開發的自然語言處理模型,適用於特定功能和應用場景。
大型語言模型 Transformers
L
crestf411
183
4
Powerlm 3b
Apache-2.0
PowerLM-3B是一個30億參數的小型語言模型,採用Power學習率調度器訓練,在自然語言多選、代碼生成和數學推理等多個基準測試中表現優異。
大型語言模型 Transformers
P
ibm-research
11.07k
20
Deepseek Coder V2 Lite Base AWQ
其他
DeepSeek-Coder-V2 是一個開源的混合專家(MoE)代碼語言模型,在特定代碼任務中可實現與 GPT4-Turbo 相媲美的性能。
大型語言模型 Transformers
D
TechxGenus
229.29k
2
Qwen2 7B Instruct
Apache-2.0
基於Qwen2-7B-Instruct進一步後訓練的模型,擅長處理複雜的多輪工具/函數調用任務。
大型語言模型 Transformers 支持多種語言
Q
rubra-ai
62
5
Granite 8b Code Instruct 4k
Apache-2.0
Granite-8B-Code-Instruct-4K是一個80億參數的代碼指令模型,基於Granite-8B-Code-Base-4K在多種允許許可的指令數據上進行微調,增強了其遵循指令的能力,包括邏輯推理和問題解決技能。
大型語言模型 Transformers 其他
G
ibm-granite
1,481
110
Granite 3b Code Instruct 2k
Apache-2.0
Granite-3B-Code-Instruct-2K是基於Granite-3B-Code-Base-2K微調的30億參數模型,增強了指令遵循能力,特別擅長代碼生成和邏輯推理任務。
大型語言模型 Transformers 其他
G
ibm-granite
1,883
36
Chicka Mixtral 3x7b
MIT
基於3個Mistral架構模型的專家混合大語言模型,擅長對話、代碼和數學任務
大型語言模型 Transformers
C
Chickaboo
77
3
Quietstar 8 Ahead
基於Mistral-7b模型,採用Quiet-STaR方法進行持續預訓練,在生成每個輸出詞元前會先生成8個思維詞元,提升推理能力。
大型語言模型 Transformers
Q
ezelikman
239
90
Mathgenie InterLM 20B
Apache-2.0
MathGenie是一種通過問題回譯生成合成數據以增強大語言模型數學推理能力的模型。
大型語言模型 Transformers 支持多種語言
M
MathGenie
32
8
Smaug 72B V0.1
其他
首個平均分突破80%的開源大語言模型,基於MoMo-72B-lora-1.8.7-DPO微調,採用創新的DPO-Positive技術優化偏好學習
大型語言模型 Transformers
S
abacusai
119
468
Codellama 7b Hf ReFT GSM8k
通過強化微調增強大語言模型的推理泛化能力,基於Codellama微調,適用於代碼生成與理解任務。
大型語言模型 Transformers
C
lqtrung1998
38
1
Smaug 34B V0.1
Apache-2.0
基於jondurbin/bagel-34b-v0.2微調的大語言模型,採用新型DPO-Positive(DPOP)技術優化偏好學習
大型語言模型 Transformers
S
abacusai
2,694
62
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase