MiniCPM4-8B-GGUF開源大語言模型 - 端側設備適用，生成速度提升超5倍

首頁

Minicpm4 8B GGUF

由openbmb開發

MiniCPM4 是一款專為端側設備設計的高效大語言模型，在相同規模下保持最優性能的同時實現了極致的效率提升，在典型端側芯片上可實現超 5 倍的生成加速。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #端側高效推理 #三元量化壓縮 #長文本稀疏注意力

下載量 324

發布時間 : 6/13/2025

模型概述

MiniCPM4 是專為端側設備優化的高效大語言模型，通過模型架構、訓練數據、訓練算法和推理系統四個維度的創新，實現了高性能與高效率的平衡。

模型特點

高效模型架構

採用可訓練的稀疏注意力機制架構，在128K長文本處理中，每個標記僅需與不到5%的標記計算相關性，顯著降低長文本的計算開銷。

高效學習算法

引入下游任務性能的縮放預測方法，實現更精確的模型訓練配置搜索；採用FP8低精度計算技術，結合多標記預測訓練策略。

高質量訓練數據

基於高效數據驗證構建迭代數據清理策略，使用高質量中英文預訓練數據集UltraFinweb和大規模監督微調數據集UltraChat v2。

高效推理系統

集成稀疏注意力、模型量化和推測採樣，實現高效預填充和解碼；支持在多個後端環境進行高效部署。

極致量化技術

通過BitCPM技術將模型參數位寬壓縮至3個值，實現90%的極端模型位寬縮減。

模型能力

文本生成

長文本理解

工具調用

調查論文生成

推測推理加速

使用案例

內容生成

調查論文生成

基於用戶查詢自主生成可信的長篇調查論文

效率優化

推測推理加速

通過Eagle頭和FRSpec技術實現超5倍的生成加速

在典型端側芯片上實現超5倍加速

邊緣計算

端側部署

專為端側設備優化的高效推理

在資源受限設備上保持高性能

🚀 MiniCPM4 - 高效邊緣大模型

MiniCPM4 是一款專為端側設備設計的高效大語言模型，它在模型架構、訓練數據、訓練算法和推理系統四個關鍵維度進行了系統性創新，在相同規模下保持最優性能的同時實現了極致的效率提升，在典型端側芯片上可實現超 5 倍的生成加速。

GitHub 倉庫 | 技術報告

加入我們的 Discord 和微信社區

✨ 主要特性

MiniCPM4 系列模型

MiniCPM4-8B：MiniCPM4 的旗艦模型，擁有 80 億參數，在 8T 標記上進行訓練。
MiniCPM4-0.5B：MiniCPM4 的小版本，擁有 5 億參數，在 1T 標記上進行訓練。
MiniCPM4-8B-Eagle-FRSpec：用於 FRSpec 的 Eagle 頭，加速 MiniCPM4-8B 的推測推理。
MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu：使用 QAT 為 FRSpec 訓練的 Eagle 頭，有效集成推測和量化，為 MiniCPM4-8B 實現超加速。
MiniCPM4-8B-Eagle-vLLM：vLLM 格式的 Eagle 頭，加速 MiniCPM4-8B 的推測推理。
MiniCPM4-8B-marlin-Eagle-vLLM：vLLM 格式的量化 Eagle 頭，加速 MiniCPM4-8B 的推測推理。
BitCPM4-0.5B：將極端三元量化應用於 MiniCPM4-0.5B，將模型參數壓縮為三元值，實現 90% 的位寬縮減。
BitCPM4-1B：將極端三元量化應用於 MiniCPM3-1B，將模型參數壓縮為三元值，實現 90% 的位寬縮減。
MiniCPM4-Survey：基於 MiniCPM4-8B，接受用戶查詢作為輸入，自主生成可信的長篇調查論文。
MiniCPM4-MCP：基於 MiniCPM4-8B，接受用戶查詢和可用的 MCP 工具作為輸入，自主調用相關 MCP 工具以滿足用戶需求。
MiniCPM4-8B-GGUF：MiniCPM4-8B 的 GGUF 版本。 (<-- 你在這裡)

詳細介紹

高效模型架構：
- InfLLM v2 -- 可訓練稀疏注意力機制：採用可訓練的稀疏注意力機制架構，在 128K 長文本處理中，每個標記僅需與不到 5% 的標記計算相關性，顯著降低長文本的計算開銷。
高效學習算法：
- 模型風洞 2.0 -- 高效可預測縮放：引入下游任務性能的縮放預測方法，實現更精確的模型訓練配置搜索。
- BitCPM -- 極致三元量化：將模型參數位寬壓縮至 3 個值，實現 90% 的極端模型位寬縮減。
- 高效訓練工程優化：採用 FP8 低精度計算技術，結合多標記預測訓練策略。
高質量訓練數據：
- UltraClean -- 高質量預訓練數據過濾與生成：基於高效數據驗證構建迭代數據清理策略，開源高質量中英文預訓練數據集 UltraFinweb。
- UltraChat v2 -- 高質量監督微調數據生成：構建大規模高質量監督微調數據集，涵蓋知識密集型數據、推理密集型數據、指令跟隨數據、長文本理解數據和工具調用數據等多個維度。
高效推理系統：
- CPM.cu -- 輕量級高效 CUDA 推理框架：集成稀疏注意力、模型量化和推測採樣，實現高效預填充和解碼。
- ArkInfer -- 跨平臺部署系統：支持在多個後端環境進行高效部署，提供靈活的跨平臺適配能力。

💻 使用示例

基礎用法

使用 llama.cpp 進行推理：

./llama-cli -c 1024 -m MiniCPM4-8B-Q4_K_M.gguf -n 1024 --top-p 0.7 --temp 0.7 --prompt "<|im_start|>user\nËØ∑ÂÜô‰∏ÄÁØáÂÖ≥‰∫é‰∫∫Â∑•Êô∫ËÉΩÁöÑÊñáÁ´†ÔºåËØ¶ÁªÜ‰ªãÁªç‰∫∫Â∑•Êô∫ËÉΩÁöÑÊú™Êù•ÂèëÂ±ïÂíåÈöêÊÇ£„ÄÇ<|im_end|>\n<|im_start|>assistant\n"

⚠️ 聲明

作為一種語言模型，MiniCPM 通過學習大量文本生成內容。
然而，它不具備理解或表達個人觀點或價值判斷的能力。
MiniCPM 生成的任何內容均不代表模型開發者的觀點或立場。
因此，用戶在使用 MiniCPM 生成的內容時，應自行承擔評估和驗證的全部責任。

📄 許可證

本倉庫和 MiniCPM 模型均遵循 Apache-2.0 許可證發佈。

📚 引用

如果您認為我們的工作有價值，請引用我們的論文。

@article{minicpm4,
  title={{MiniCPM4}: Ultra-Efficient LLMs on End Devices},
  author={MiniCPM Team},
  year={2025}
}

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫