Minicpm4 8B GGUF
MiniCPM4 是一款专为端侧设备设计的高效大语言模型,在相同规模下保持最优性能的同时实现了极致的效率提升,在典型端侧芯片上可实现超 5 倍的生成加速。
下载量 324
发布时间 : 6/13/2025
模型简介
MiniCPM4 是专为端侧设备优化的高效大语言模型,通过模型架构、训练数据、训练算法和推理系统四个维度的创新,实现了高性能与高效率的平衡。
模型特点
高效模型架构
采用可训练的稀疏注意力机制架构,在128K长文本处理中,每个标记仅需与不到5%的标记计算相关性,显著降低长文本的计算开销。
高效学习算法
引入下游任务性能的缩放预测方法,实现更精确的模型训练配置搜索;采用FP8低精度计算技术,结合多标记预测训练策略。
高质量训练数据
基于高效数据验证构建迭代数据清理策略,使用高质量中英文预训练数据集UltraFinweb和大规模监督微调数据集UltraChat v2。
高效推理系统
集成稀疏注意力、模型量化和推测采样,实现高效预填充和解码;支持在多个后端环境进行高效部署。
极致量化技术
通过BitCPM技术将模型参数位宽压缩至3个值,实现90%的极端模型位宽缩减。
模型能力
文本生成
长文本理解
工具调用
调查论文生成
推测推理加速
使用案例
内容生成
调查论文生成
基于用户查询自主生成可信的长篇调查论文
效率优化
推测推理加速
通过Eagle头和FRSpec技术实现超5倍的生成加速
在典型端侧芯片上实现超5倍加速
边缘计算
端侧部署
专为端侧设备优化的高效推理
在资源受限设备上保持高性能
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98