MiniCPM4-8B-GGUF开源大语言模型 - 端侧设备适用，生成速度提升超5倍

首页

Minicpm4 8B GGUF

由 openbmb 开发

MiniCPM4 是一款专为端侧设备设计的高效大语言模型，在相同规模下保持最优性能的同时实现了极致的效率提升，在典型端侧芯片上可实现超 5 倍的生成加速。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #端侧高效推理 #三元量化压缩 #长文本稀疏注意力

下载量 324

发布时间 : 6/13/2025

模型简介

MiniCPM4 是专为端侧设备优化的高效大语言模型，通过模型架构、训练数据、训练算法和推理系统四个维度的创新，实现了高性能与高效率的平衡。

模型特点

高效模型架构

采用可训练的稀疏注意力机制架构，在128K长文本处理中，每个标记仅需与不到5%的标记计算相关性，显著降低长文本的计算开销。

高效学习算法

引入下游任务性能的缩放预测方法，实现更精确的模型训练配置搜索；采用FP8低精度计算技术，结合多标记预测训练策略。

高质量训练数据

基于高效数据验证构建迭代数据清理策略，使用高质量中英文预训练数据集UltraFinweb和大规模监督微调数据集UltraChat v2。

高效推理系统

集成稀疏注意力、模型量化和推测采样，实现高效预填充和解码；支持在多个后端环境进行高效部署。

极致量化技术

通过BitCPM技术将模型参数位宽压缩至3个值，实现90%的极端模型位宽缩减。

模型能力

文本生成

长文本理解

工具调用

调查论文生成

推测推理加速

使用案例

内容生成

调查论文生成

基于用户查询自主生成可信的长篇调查论文

效率优化

推测推理加速

通过Eagle头和FRSpec技术实现超5倍的生成加速

在典型端侧芯片上实现超5倍加速

边缘计算

端侧部署

专为端侧设备优化的高效推理

在资源受限设备上保持高性能

🚀 MiniCPM4 - 高效边缘大模型

MiniCPM4 是一款专为端侧设备设计的高效大语言模型，它在模型架构、训练数据、训练算法和推理系统四个关键维度进行了系统性创新，在相同规模下保持最优性能的同时实现了极致的效率提升，在典型端侧芯片上可实现超 5 倍的生成加速。

GitHub 仓库 | 技术报告

加入我们的 Discord 和微信社区

✨ 主要特性

MiniCPM4 系列模型

MiniCPM4-8B：MiniCPM4 的旗舰模型，拥有 80 亿参数，在 8T 标记上进行训练。
MiniCPM4-0.5B：MiniCPM4 的小版本，拥有 5 亿参数，在 1T 标记上进行训练。
MiniCPM4-8B-Eagle-FRSpec：用于 FRSpec 的 Eagle 头，加速 MiniCPM4-8B 的推测推理。
MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu：使用 QAT 为 FRSpec 训练的 Eagle 头，有效集成推测和量化，为 MiniCPM4-8B 实现超加速。
MiniCPM4-8B-Eagle-vLLM：vLLM 格式的 Eagle 头，加速 MiniCPM4-8B 的推测推理。
MiniCPM4-8B-marlin-Eagle-vLLM：vLLM 格式的量化 Eagle 头，加速 MiniCPM4-8B 的推测推理。
BitCPM4-0.5B：将极端三元量化应用于 MiniCPM4-0.5B，将模型参数压缩为三元值，实现 90% 的位宽缩减。
BitCPM4-1B：将极端三元量化应用于 MiniCPM3-1B，将模型参数压缩为三元值，实现 90% 的位宽缩减。
MiniCPM4-Survey：基于 MiniCPM4-8B，接受用户查询作为输入，自主生成可信的长篇调查论文。
MiniCPM4-MCP：基于 MiniCPM4-8B，接受用户查询和可用的 MCP 工具作为输入，自主调用相关 MCP 工具以满足用户需求。
MiniCPM4-8B-GGUF：MiniCPM4-8B 的 GGUF 版本。 (<-- 你在这里)

详细介绍

高效模型架构：
- InfLLM v2 -- 可训练稀疏注意力机制：采用可训练的稀疏注意力机制架构，在 128K 长文本处理中，每个标记仅需与不到 5% 的标记计算相关性，显著降低长文本的计算开销。
高效学习算法：
- 模型风洞 2.0 -- 高效可预测缩放：引入下游任务性能的缩放预测方法，实现更精确的模型训练配置搜索。
- BitCPM -- 极致三元量化：将模型参数位宽压缩至 3 个值，实现 90% 的极端模型位宽缩减。
- 高效训练工程优化：采用 FP8 低精度计算技术，结合多标记预测训练策略。
高质量训练数据：
- UltraClean -- 高质量预训练数据过滤与生成：基于高效数据验证构建迭代数据清理策略，开源高质量中英文预训练数据集 UltraFinweb。
- UltraChat v2 -- 高质量监督微调数据生成：构建大规模高质量监督微调数据集，涵盖知识密集型数据、推理密集型数据、指令跟随数据、长文本理解数据和工具调用数据等多个维度。
高效推理系统：
- CPM.cu -- 轻量级高效 CUDA 推理框架：集成稀疏注意力、模型量化和推测采样，实现高效预填充和解码。
- ArkInfer -- 跨平台部署系统：支持在多个后端环境进行高效部署，提供灵活的跨平台适配能力。

💻 使用示例

基础用法

使用 llama.cpp 进行推理：

./llama-cli -c 1024 -m MiniCPM4-8B-Q4_K_M.gguf -n 1024 --top-p 0.7 --temp 0.7 --prompt "<|im_start|>user\nËØ∑ÂÜô‰∏ÄÁØáÂÖ≥‰∫é‰∫∫Â∑•Êô∫ËÉΩÁöÑÊñáÁ´†ÔºåËØ¶ÁªÜ‰ªãÁªç‰∫∫Â∑•Êô∫ËÉΩÁöÑÊú™Êù•ÂèëÂ±ïÂíåÈöêÊÇ£„ÄÇ<|im_end|>\n<|im_start|>assistant\n"

⚠️ 声明

作为一种语言模型，MiniCPM 通过学习大量文本生成内容。
然而，它不具备理解或表达个人观点或价值判断的能力。
MiniCPM 生成的任何内容均不代表模型开发者的观点或立场。
因此，用户在使用 MiniCPM 生成的内容时，应自行承担评估和验证的全部责任。

📄 许可证

本仓库和 MiniCPM 模型均遵循 Apache-2.0 许可证发布。

📚 引用

如果您认为我们的工作有价值，请引用我们的论文。

@article{minicpm4,
  title={{MiniCPM4}: Ultra-Efficient LLMs on End Devices},
  author={MiniCPM Team},
  year={2025}
}

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库