M

Minicpm S 1B Sft

由openbmb開發
MiniCPM-S-1B-sft 是一個基於激活稀疏化技術優化的1B參數規模語言模型,通過ProSparse方法實現高稀疏性推理加速,同時保持與原始模型相當的性能。
下載量 169
發布時間 : 4/25/2025

模型概述

該模型採用ProSparse訓練方法,將FFNs的激活函數替換為ReLU並進行漸進稀疏正則化,最終實現高達87.89%的稀疏性。適用於需要高效推理的場景。

模型特點

高激活稀疏性
通過ProSparse方法實現87.89%的稀疏性,顯著高於同類ReLU激活模型
高效推理加速
高稀疏性配合專用稀疏GPU算子,在PowerInfer框架下實現顯著推理加速
性能保持
在保持與原始Swish激活模型相當性能的同時實現稀疏化
漸進稀疏訓練
採用三階段訓練策略:激活函數替換、漸進稀疏正則化和激活閾值偏移

模型能力

文本生成
常識推理
代碼生成
閱讀理解
數學問題求解
知識問答

使用案例

高效推理應用
邊緣設備部署
利用高稀疏性特點在資源受限設備上實現高效推理
在PowerInfer框架下實現顯著加速
即時對話系統
適用於需要低延遲響應的聊天機器人場景
教育應用
編程學習輔助
幫助學生理解和生成代碼
HumanEval評分42.04,MBPP評分41.38
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase