notbad_v1_1_mistral_24b開源大模型 - 提升數學推理與Python編程能力

首頁

Notbad V1 1 Mistral 24b

由notbadai開發

專注於數學推理和Python編程訓練的24B參數大語言模型，基於Mistral架構優化

大型語言模型

Transformers

開源協議:Apache-2.0 #數學推理優化 #Python編程強化 #簡潔推理輸出

下載量 34

發布時間 : 4/7/2025

模型概述

該模型在數學推理和編程領域進行了深度優化，能生成更簡潔的推理過程輸出。通過強化學習技術實現自我迭代優化，而非蒸餾自其他模型。

模型特點

數學推理優化

專門針對數學問題解決能力進行強化訓練

Python編程能力

在編程任務特別是Python代碼生成方面表現優異

簡潔推理輸出

能生成更簡潔高效的推理過程，減少冗餘信息

自我迭代優化

通過強化學習實現能力提升，而非依賴模型蒸餾

模型能力

數學問題求解

Python代碼生成

文本生成

邏輯推理

指令遵循

使用案例

教育

數學輔導

幫助學生理解複雜數學概念和解題方法

在MMLU數學評估中得分0.749

編程教學

輔助編程學習，提供代碼示例和解釋

HumanEval評估得分0.872

開發

代碼輔助

幫助開發者快速生成Python代碼片段

🚀 Notbad v1.1 Mistral 24B模型卡

Notbad v1.1 Mistral 24B是一款專注於數學和Python編碼推理的模型。相較於之前的Notbad v1.0 Mistral 24B，它在IFEval評測中取得了更優的成績。該模型基於Mistral-Small-24B-Instruct-2501構建，並在數學和編碼任務上通過強化學習進行了進一步訓練。

✨ 主要特性

推理輸出簡潔：Notbad v1.0的一大關鍵特性是能夠生成更簡短、清晰的推理輸出。
自我提升推理能力：此模型的推理能力源於自我提升，並非從其他模型中蒸餾而來。它是從多個基於Mistral-Small-24B-Instruct-2501的強化學習模型中採樣數據進行微調的結果。
借鑑先進技術：使用了公開數據集，並採用了基於Quiet Star工作延續發展的強化學習技術，與Dr. GRPO類似。