模型简介
模型特点
模型能力
使用案例
🚀 MiniCPM-Llama3-V 2.5:手机上的GPT - 4V级多模态大语言模型
MiniCPM-Llama3-V 2.5是一款强大的多模态大语言模型,能够在手机等设备上运行,达到GPT - 4V级别的性能。它具备领先的性能、强大的OCR能力、多语言支持等特点,为用户带来高效便捷的多模态交互体验。
项目信息
属性 | 详情 |
---|---|
模型类型 | 多模态大语言模型 |
训练数据 | openbmb/RLAIF - V - Dataset |
库名称 | transformers |
标签 | minicpm - v、vision、ocr、custom_code |
支持语言 | 多语言 |
任务类型 | 图像 - 文本到文本 |
📌 最新消息
置顶消息
- [2025.01.14] 🔥🔥 🔥 我们开源了 MiniCPM - o 2.6,相较于 MiniCPM - V 2.6 性能有显著提升,支持实时语音到语音对话和多模态直播。立即试用。
- [2024.08.10] 🚀🚀🚀 MiniCPM - Llama3 - V 2.5 现已得到 官方 llama.cpp 的全面支持!各种大小的GGUF模型可在 此处 获取。
- [2024.08.06] 🔥🔥🔥 我们开源了 MiniCPM - V 2.6,在单图像、多图像和视频理解方面优于GPT - 4V。它改进了MiniCPM - Llama3 - V 2.5的流行功能,并支持在iPad上进行实时视频理解。立即试用!
- [2024.08.03] MiniCPM - Llama3 - V 2.5技术报告发布!详情见 此处。
- [2024.07.19] MiniCPM - Llama3 - V 2.5现在支持vLLM!详情见 此处。
- [2024.05.28] 💫 我们现在支持对MiniCPM - Llama3 - V 2.5进行LoRA微调,仅需2块V100 GPU!更多统计信息见 此处。
- [2024.05.23] 🔥🔥🔥 MiniCPM - V登上GitHub趋势和HuggingFace趋势!我们的演示受到Hugging Face Gradio官方账号推荐,可在 此处 试用。
- [2024.05.20] 我们开源了MiniCPM - Llama3 - V 2.5,它提高了OCR能力,支持30多种语言,是首个达到GPT - 4V级别性能的端侧多模态大语言模型!我们提供 高效推理 和 简单微调。立即试用!
✨ 主要特性
MiniCPM - Llama3 - V 2.5 是MiniCPM - V系列的最新模型。该模型基于SigLip - 400M和Llama3 - 8B - Instruct构建,总共有80亿参数。与MiniCPM - V 2.0相比,它的性能有显著提升。其主要特性包括:
- 🔥 领先性能:MiniCPM - Llama3 - V 2.5在OpenCompass上的平均得分达到65.1分,这是对11个流行基准的综合评估。仅80亿参数的它,超越了广泛使用的专有模型,如GPT - 4V - 1106、Gemini Pro、Claude 3和Qwen - VL - Max,并大幅优于其他基于Llama 3的多模态大语言模型。
- 💪 强大的OCR能力:MiniCPM - Llama3 - V 2.5可以处理任意宽高比、像素高达180万(如1344x1344)的图像,在OCRBench上的得分超过700分,超越了GPT - 4o、GPT - 4V - 0409、Qwen - VL - Max和Gemini Pro等专有模型。根据最新用户反馈,MiniCPM - Llama3 - V 2.5现在增强了全文OCR提取、表格转Markdown转换等高实用性功能,并进一步强化了指令遵循和复杂推理能力,提升了多模态交互体验。
- 🏆 可靠行为:借助最新的 RLAIF - V 方法(RLHF - V [CVPR'24]系列中的最新技术),MiniCPM - Llama3 - V 2.5表现出更可靠的行为。它在Object HalBench上的幻觉率为 10.3%,低于GPT - 4V - 1106(13.6%),在开源社区中达到了最佳水平。数据发布。
- 🌏 多语言支持:得益于Llama 3强大的多语言能力和 VisCPM 的跨语言泛化技术,MiniCPM - Llama3 - V 2.5将其中英文双语多模态能力扩展到了 包括德语、法语、西班牙语、意大利语、韩语、日语等在内的30多种语言。所有支持的语言。
- 🚀 高效部署:MiniCPM - Llama3 - V 2.5系统地采用了 模型量化、CPU优化、NPU优化和编译优化,实现了在边缘设备上的高效部署。对于配备高通芯片的手机,我们首次将NPU加速框架QNN集成到llama.cpp中。经过系统优化,MiniCPM - Llama3 - V 2.5实现了 多模态大模型端侧图像编码加速150倍 和 语言解码速度提升3倍。
- 💫 易于使用:MiniCPM - Llama3 - V 2.5可以通过多种方式轻松使用:
评估结果
多模态基准评估
模型在TextVQA、DocVQA、OCRBench、OpenCompass MultiModal Avg、MME、MMBench、MMMU、MathVista、LLaVA Bench、RealWorld QA、Object HalBench等基准测试上的结果如下:

多语言LLaVA Bench评估结果

示例展示
综合示例
端设备部署示例
我们将MiniCPM - Llama3 - V 2.5部署在端设备上。以下演示视频是小米14 Pro的原始屏幕录制,未经过编辑。
🚀 快速开始
在线体验
点击此处试用 MiniCPM - Llama3 - V 2.5 的演示。
本地部署
手机部署
相关内容即将推出。
使用Huggingface transformers在NVIDIA GPU上进行推理
在Python 3.10环境下测试的依赖要求如下:
Pillow==10.1.0
torch==2.1.2
torchvision==0.16.2
transformers==4.40.0
sentencepiece==0.1.99
# test.py
import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5', trust_remote_code=True, torch_dtype=torch.float16)
model = model.to(device='cuda')
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5', trust_remote_code=True)
model.eval()
image = Image.open('xx.jpg').convert('RGB')
question = 'What is in the image?'
msgs = [{'role': 'user', 'content': question}]
res = model.chat(
image=image,
msgs=msgs,
tokenizer=tokenizer,
sampling=True, # if sampling=False, beam_search will be used by default
temperature=0.7,
# system_prompt='' # pass system_prompt if needed
)
print(res)
## if you want to use streaming, please make sure sampling=True and stream=True
## the model.chat will return a generator
res = model.chat(
image=image,
msgs=msgs,
tokenizer=tokenizer,
sampling=True,
temperature=0.7,
stream=True
)
generated_text = ""
for new_text in res:
generated_text += new_text
print(new_text, flush=True, end='')
更多使用细节请参考 GitHub。
使用llama.cpp进行推理
MiniCPM - Llama3 - V 2.5现在可以使用llama.cpp运行!更多详情请见我们的 llama.cpp分支。
下载int4量化版本
为了减少GPU内存(8GB)使用,可下载int4量化版本:MiniCPM - Llama3 - V 2_5 - int4。
MiniCPM - V 2.0相关信息
请见 此处 关于MiniCPM - V 2.0的信息。
📄 许可证
模型许可证
- 本仓库中的代码遵循 Apache - 2.0 许可证发布。
- MiniCPM - V系列模型权重的使用必须严格遵循 MiniCPM Model License.md。
- MiniCPM的模型和权重完全免费用于学术研究,填写 "问卷" 注册后,也可免费用于商业用途。
声明
- 作为一个大语言模型,MiniCPM - Llama3 - V 2.5通过学习大量文本生成内容,但它无法理解、表达个人观点或做出价值判断。MiniCPM - Llama3 - V 2.5生成的任何内容均不代表模型开发者的观点和立场。
- 我们不对使用MinCPM - V开源模型产生的任何问题负责,包括但不限于数据安全问题、舆论风险,或因模型的误导、误用、传播或滥用而产生的任何风险和问题。
🔗 相关项目
欢迎探索MiniCPM - V 2.6的关键技术和我们团队的其他多模态项目: VisCPM | RLHF - V | LLaVA - UHD | RLAIF - V
📝 引用
如果您觉得我们的工作有帮助,请考虑引用我们的论文并给项目点赞!
@article{yao2024minicpmv,
title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and Chen, Qianyu and Zhou, Huarong and Zou, Zhensheng and Zhang, Haoye and Hu, Shengding and Zheng, Zhi and Zhou, Jie and Cai, Jie and Han, Xu and Zeng, Guoyang and Li, Dahai and Liu, Zhiyuan and Sun, Maosong},
journal={arXiv preprint 2408.01800},
year={2024},
}








