Minicpm4 8B GGUF
MiniCPM4 是一款專為端側設備設計的高效大語言模型,在相同規模下保持最優性能的同時實現了極致的效率提升,在典型端側芯片上可實現超 5 倍的生成加速。
下載量 324
發布時間 : 6/13/2025
模型概述
MiniCPM4 是專為端側設備優化的高效大語言模型,通過模型架構、訓練數據、訓練算法和推理系統四個維度的創新,實現了高性能與高效率的平衡。
模型特點
高效模型架構
採用可訓練的稀疏注意力機制架構,在128K長文本處理中,每個標記僅需與不到5%的標記計算相關性,顯著降低長文本的計算開銷。
高效學習算法
引入下游任務性能的縮放預測方法,實現更精確的模型訓練配置搜索;採用FP8低精度計算技術,結合多標記預測訓練策略。
高質量訓練數據
基於高效數據驗證構建迭代數據清理策略,使用高質量中英文預訓練數據集UltraFinweb和大規模監督微調數據集UltraChat v2。
高效推理系統
集成稀疏注意力、模型量化和推測採樣,實現高效預填充和解碼;支持在多個後端環境進行高效部署。
極致量化技術
通過BitCPM技術將模型參數位寬壓縮至3個值,實現90%的極端模型位寬縮減。
模型能力
文本生成
長文本理解
工具調用
調查論文生成
推測推理加速
使用案例
內容生成
調查論文生成
基於用戶查詢自主生成可信的長篇調查論文
效率優化
推測推理加速
通過Eagle頭和FRSpec技術實現超5倍的生成加速
在典型端側芯片上實現超5倍加速
邊緣計算
端側部署
專為端側設備優化的高效推理
在資源受限設備上保持高性能
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98