數學推理增強

# 數學推理增強

基於Qwen3-1.7B微調的版本，通過1-shot強化學習與可驗證獎勵（RLVR）方法增強了數學推理能力，在數學基準測試和編碼任務中表現出色。

大型語言模型

Deepseek R1 0528 Bf16

DeepSeek-R1-0528是DeepSeek R1模型的小版本升級，通過增加計算資源和算法優化顯著提升了推理能力，在數學、編程和通用邏輯等多個基準評估中表現出色。

大型語言模型

cognitivecomputations

Deepseek R1 0528 Qwen3 8B GPTQ Int4 Int8Mix

基於DeepSeek-R1-0528-Qwen3-8B開發的量化版本模型，在推理能力、減少幻覺率等方面有顯著提升，適用於多種自然語言處理任務。

大型語言模型

Autogressive 32B

Autoregressive-32B是基於自迴歸建模構建的Multiverse-32B基線模型，為文本生成任務提供了強大的支持。

大型語言模型

Qwen3 4B Llamafile

Qwen3-4B是Qwen系列最新一代的大語言模型，具有4B參數規模，支持128k上下文窗口和100多種語言，在推理、指令遵循和代理能力方面表現優異。

大型語言模型

Qwen3 235B A22B GGUF

Qwen3是通義千問系列大語言模型的最新版本，提供稠密模型與混合專家（MoE）模型的完整套件。基於海量訓練數據，Qwen3在推理能力、指令遵循、智能體功能及多語言支持方面實現突破性進展。

大型語言模型

Qwen3-4B是通義千問系列最新一代40億參數大語言模型，支持思維與非思維模式切換，具備強大的推理、指令遵循和智能體能力。

大型語言模型

Phi 4 Reasoning Plus Unsloth Bnb 4bit

Phi-4-reasoning-plus是微軟基於Phi-4微調的最先進開放權重推理模型，專注於數學、科學和編碼領域的高級推理能力。

大型語言模型

Transformers 支持多種語言

Phi 4 Reasoning Plus

Phi-4推理增強版是微軟研究院開發的140億參數開源推理模型，通過監督微調和強化學習優化，專注於數學、科學和編程領域的高級推理能力。

大型語言模型

Transformers 支持多種語言

Phi 4 Reasoning Plus GGUF

Phi-4-reasoning-plus 是微軟開發的增強推理能力的大語言模型，專為複雜數學問題和多步驟推理任務優化。

大型語言模型支持多種語言

lmstudio-community

Qwen3是通義千問系列最新一代大語言模型，提供完整的密集模型和專家混合(MoE)模型組合。基於大規模訓練，Qwen3在推理、指令遵循、智能體能力和多語言支持方面取得突破性進展。

大型語言模型

Qwen2.5 Math 7B 16k Think

基於Qwen2.5-Math-7B改進的模型，擴展了上下文窗口並優化了推理能力

大型語言模型

基於OpenThoughts-114k-math數學數據集及其他增強思維能力訓練集打造的高性能推理模型

大型語言模型

Transformers 英語

Codev R1 Distill Qwen 7B

基於DeepSeek-R1蒸餾的Verilog RTL代碼生成模型，在Verilog基準測試中表現優異

大型語言模型

ReasonFlux-F1-32B是基於思維模板擴展的分層大語言模型，通過模板增強推理軌跡微調，在推理任務中表現優異。

大型語言模型

基於強化學習增強的小型大語言模型，專注於提升1.5B參數模型的推理能力

大型語言模型

Qwq Bakeneko 32b

基於Qwen2.5-32B和QwQ-32B合併優化的日語對話模型，通過Chat Vector和ORPO技術增強指令跟隨能力

大型語言模型

Transformers 日語

Thinkedit Deepseek Llama3 8b

ThinkEdit是一種輕量級權重編輯方法，通過識別並編輯少量注意力頭來緩解推理模型生成過於簡短思維鏈的問題，提升推理準確性。

大型語言模型

Sombrero QwQ 32B Elite11

基於Qwen的QwQ 32B架構優化的大語言模型，專注於高效內存利用、編程輔助和複雜問題解決。

大型語言模型

Transformers 英語

Li 14b V0.4 Slerp0.1

這是一個使用SLERP方法合併的14B參數規模的大語言模型，由li-14b-v0.4和miscii-14b-0218兩個基礎模型合併而成。

大型語言模型

STILL 3 1.5B Preview

STILL-3-1.5B-preview是一款採用強化學習技術增強推理能力的慢思考模型，在AIME基準測試中達到39.33%準確率

大型語言模型

Phi 4 Model Stock V2

Phi-4-Model-Stock-v2是基於多個Phi-4變體模型合併而成的大語言模型，採用model_stock合併方法，在多個基準測試中表現良好。

大型語言模型

Aceinstruct 72B

AceInstruct 是一系列先進的 SFT 模型，基於 Qwen 改進，適用於編碼、數學和通用任務。

大型語言模型

Safetensors 支持多種語言

Sky T1 32B Preview GGUF

Sky-T1-32B-Preview是一個32B參數的大語言模型，經過llama.cpp的imatrix量化處理，適用於文本生成任務。

大型語言模型英語

Dolphin3.0 Llama3.2 3B GGUF

基於Llama3.2架構的3B參數大語言模型，支持英文文本生成任務，採用llama.cpp進行imatrix量化

大型語言模型英語

LuxLlama是基於Meta-Llama-3.1-8B-Instruct模型微調的版本，專門優化了盧森堡語理解和生成能力以及通用和數學推理能力。

大型語言模型

Transformers 支持多種語言

Skywork O1 Open PRM Qwen 2.5 1.5B

Skywork o1 Open-PRM-Qwen-2.5-1.5B是基於Qwen2.5-Math-1.5B-Instruct訓練的增量過程獎勵模型，專為增強小規模複雜問題求解能力而設計。

大型語言模型

Skywork O1 Open PRM Qwen 2.5 7B

Skywork o1開放模型系列中的7B參數規模模型，基於Qwen2.5-Math-7B-Instruct訓練，具備漸進式過程獎勵增強的推理能力

大型語言模型

Llama 3.2 Rabbit Ko 3B Instruct

胡蘿蔔Llama-3.2 Rabbit Ko是一款經過指令微調的大語言模型，支持韓語和英語，在文本生成任務中表現出色。

大型語言模型

Safetensors 支持多種語言

L3.1 8B Sunfall Stheno V0.6.1

Sunfall模型是基於Llama-3.1-8B-Stheno-v3.4開發的自然語言處理模型，適用於特定功能和應用場景。

大型語言模型

PowerLM-3B是一個30億參數的小型語言模型，採用Power學習率調度器訓練，在自然語言多選、代碼生成和數學推理等多個基準測試中表現優異。

大型語言模型

Deepseek Coder V2 Lite Base AWQ

DeepSeek-Coder-V2 是一個開源的混合專家（MoE）代碼語言模型，在特定代碼任務中可實現與 GPT4-Turbo 相媲美的性能。

大型語言模型

Qwen2 7B Instruct

基於Qwen2-7B-Instruct進一步後訓練的模型，擅長處理複雜的多輪工具/函數調用任務。

大型語言模型

Transformers 支持多種語言

Granite 8b Code Instruct 4k

Granite-8B-Code-Instruct-4K是一個80億參數的代碼指令模型，基於Granite-8B-Code-Base-4K在多種允許許可的指令數據上進行微調，增強了其遵循指令的能力，包括邏輯推理和問題解決技能。

大型語言模型

Transformers 其他

Granite 3b Code Instruct 2k

Granite-3B-Code-Instruct-2K是基於Granite-3B-Code-Base-2K微調的30億參數模型，增強了指令遵循能力，特別擅長代碼生成和邏輯推理任務。

大型語言模型

Transformers 其他

Chicka Mixtral 3x7b

基於3個Mistral架構模型的專家混合大語言模型，擅長對話、代碼和數學任務

大型語言模型

Quietstar 8 Ahead

基於Mistral-7b模型，採用Quiet-STaR方法進行持續預訓練，在生成每個輸出詞元前會先生成8個思維詞元，提升推理能力。

大型語言模型

Mathgenie InterLM 20B

MathGenie是一種通過問題回譯生成合成數據以增強大語言模型數學推理能力的模型。

大型語言模型

Transformers 支持多種語言

首個平均分突破80%的開源大語言模型，基於MoMo-72B-lora-1.8.7-DPO微調，採用創新的DPO-Positive技術優化偏好學習

大型語言模型

Codellama 7b Hf ReFT GSM8k

通過強化微調增強大語言模型的推理泛化能力，基於Codellama微調，適用於代碼生成與理解任務。

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase