模型概述
模型特點
模型能力
使用案例
🚀 MiniCPM-Llama3-V 2.5:手機上的GPT - 4V級多模態大語言模型
MiniCPM-Llama3-V 2.5是一款強大的多模態大語言模型,能夠在手機等設備上運行,達到GPT - 4V級別的性能。它具備領先的性能、強大的OCR能力、多語言支持等特點,為用戶帶來高效便捷的多模態交互體驗。
項目信息
屬性 | 詳情 |
---|---|
模型類型 | 多模態大語言模型 |
訓練數據 | openbmb/RLAIF - V - Dataset |
庫名稱 | transformers |
標籤 | minicpm - v、vision、ocr、custom_code |
支持語言 | 多語言 |
任務類型 | 圖像 - 文本到文本 |
📌 最新消息
置頂消息
- [2025.01.14] 🔥🔥 🔥 我們開源了 MiniCPM - o 2.6,相較於 MiniCPM - V 2.6 性能有顯著提升,支持即時語音到語音對話和多模態直播。立即試用。
- [2024.08.10] 🚀🚀🚀 MiniCPM - Llama3 - V 2.5 現已得到 官方 llama.cpp 的全面支持!各種大小的GGUF模型可在 此處 獲取。
- [2024.08.06] 🔥🔥🔥 我們開源了 MiniCPM - V 2.6,在單圖像、多圖像和視頻理解方面優於GPT - 4V。它改進了MiniCPM - Llama3 - V 2.5的流行功能,並支持在iPad上進行即時視頻理解。立即試用!
- [2024.08.03] MiniCPM - Llama3 - V 2.5技術報告發布!詳情見 此處。
- [2024.07.19] MiniCPM - Llama3 - V 2.5現在支持vLLM!詳情見 此處。
- [2024.05.28] 💫 我們現在支持對MiniCPM - Llama3 - V 2.5進行LoRA微調,僅需2塊V100 GPU!更多統計信息見 此處。
- [2024.05.23] 🔥🔥🔥 MiniCPM - V登上GitHub趨勢和HuggingFace趨勢!我們的演示受到Hugging Face Gradio官方賬號推薦,可在 此處 試用。
- [2024.05.20] 我們開源了MiniCPM - Llama3 - V 2.5,它提高了OCR能力,支持30多種語言,是首個達到GPT - 4V級別性能的端側多模態大語言模型!我們提供 高效推理 和 簡單微調。立即試用!
✨ 主要特性
MiniCPM - Llama3 - V 2.5 是MiniCPM - V系列的最新模型。該模型基於SigLip - 400M和Llama3 - 8B - Instruct構建,總共有80億參數。與MiniCPM - V 2.0相比,它的性能有顯著提升。其主要特性包括:
- 🔥 領先性能:MiniCPM - Llama3 - V 2.5在OpenCompass上的平均得分達到65.1分,這是對11個流行基準的綜合評估。僅80億參數的它,超越了廣泛使用的專有模型,如GPT - 4V - 1106、Gemini Pro、Claude 3和Qwen - VL - Max,並大幅優於其他基於Llama 3的多模態大語言模型。
- 💪 強大的OCR能力:MiniCPM - Llama3 - V 2.5可以處理任意寬高比、像素高達180萬(如1344x1344)的圖像,在OCRBench上的得分超過700分,超越了GPT - 4o、GPT - 4V - 0409、Qwen - VL - Max和Gemini Pro等專有模型。根據最新用戶反饋,MiniCPM - Llama3 - V 2.5現在增強了全文OCR提取、表格轉Markdown轉換等高實用性功能,並進一步強化了指令遵循和複雜推理能力,提升了多模態交互體驗。
- 🏆 可靠行為:藉助最新的 RLAIF - V 方法(RLHF - V [CVPR'24]系列中的最新技術),MiniCPM - Llama3 - V 2.5表現出更可靠的行為。它在Object HalBench上的幻覺率為 10.3%,低於GPT - 4V - 1106(13.6%),在開源社區中達到了最佳水平。數據發佈。
- 🌏 多語言支持:得益於Llama 3強大的多語言能力和 VisCPM 的跨語言泛化技術,MiniCPM - Llama3 - V 2.5將其中英文雙語多模態能力擴展到了 包括德語、法語、西班牙語、意大利語、韓語、日語等在內的30多種語言。所有支持的語言。
- 🚀 高效部署:MiniCPM - Llama3 - V 2.5系統地採用了 模型量化、CPU優化、NPU優化和編譯優化,實現了在邊緣設備上的高效部署。對於配備高通芯片的手機,我們首次將NPU加速框架QNN集成到llama.cpp中。經過系統優化,MiniCPM - Llama3 - V 2.5實現了 多模態大模型端側圖像編碼加速150倍 和 語言解碼速度提升3倍。
- 💫 易於使用:MiniCPM - Llama3 - V 2.5可以通過多種方式輕鬆使用:
評估結果
多模態基準評估
模型在TextVQA、DocVQA、OCRBench、OpenCompass MultiModal Avg、MME、MMBench、MMMU、MathVista、LLaVA Bench、RealWorld QA、Object HalBench等基準測試上的結果如下:

多語言LLaVA Bench評估結果

示例展示
綜合示例
端設備部署示例
我們將MiniCPM - Llama3 - V 2.5部署在端設備上。以下演示視頻是小米14 Pro的原始屏幕錄製,未經過編輯。
🚀 快速開始
在線體驗
點擊此處試用 MiniCPM - Llama3 - V 2.5 的演示。
本地部署
手機部署
相關內容即將推出。
使用Huggingface transformers在NVIDIA GPU上進行推理
在Python 3.10環境下測試的依賴要求如下:
Pillow==10.1.0
torch==2.1.2
torchvision==0.16.2
transformers==4.40.0
sentencepiece==0.1.99
# test.py
import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5', trust_remote_code=True, torch_dtype=torch.float16)
model = model.to(device='cuda')
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5', trust_remote_code=True)
model.eval()
image = Image.open('xx.jpg').convert('RGB')
question = 'What is in the image?'
msgs = [{'role': 'user', 'content': question}]
res = model.chat(
image=image,
msgs=msgs,
tokenizer=tokenizer,
sampling=True, # if sampling=False, beam_search will be used by default
temperature=0.7,
# system_prompt='' # pass system_prompt if needed
)
print(res)
## if you want to use streaming, please make sure sampling=True and stream=True
## the model.chat will return a generator
res = model.chat(
image=image,
msgs=msgs,
tokenizer=tokenizer,
sampling=True,
temperature=0.7,
stream=True
)
generated_text = ""
for new_text in res:
generated_text += new_text
print(new_text, flush=True, end='')
更多使用細節請參考 GitHub。
使用llama.cpp進行推理
MiniCPM - Llama3 - V 2.5現在可以使用llama.cpp運行!更多詳情請見我們的 llama.cpp分支。
下載int4量化版本
為了減少GPU內存(8GB)使用,可下載int4量化版本:MiniCPM - Llama3 - V 2_5 - int4。
MiniCPM - V 2.0相關信息
請見 此處 關於MiniCPM - V 2.0的信息。
📄 許可證
模型許可證
- 本倉庫中的代碼遵循 Apache - 2.0 許可證發佈。
- MiniCPM - V系列模型權重的使用必須嚴格遵循 MiniCPM Model License.md。
- MiniCPM的模型和權重完全免費用於學術研究,填寫 "問卷" 註冊後,也可免費用於商業用途。
聲明
- 作為一個大語言模型,MiniCPM - Llama3 - V 2.5通過學習大量文本生成內容,但它無法理解、表達個人觀點或做出價值判斷。MiniCPM - Llama3 - V 2.5生成的任何內容均不代表模型開發者的觀點和立場。
- 我們不對使用MinCPM - V開源模型產生的任何問題負責,包括但不限於數據安全問題、輿論風險,或因模型的誤導、誤用、傳播或濫用而產生的任何風險和問題。
🔗 相關項目
歡迎探索MiniCPM - V 2.6的關鍵技術和我們團隊的其他多模態項目: VisCPM | RLHF - V | LLaVA - UHD | RLAIF - V
📝 引用
如果您覺得我們的工作有幫助,請考慮引用我們的論文並給項目點贊!
@article{yao2024minicpmv,
title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and Chen, Qianyu and Zhou, Huarong and Zou, Zhensheng and Zhang, Haoye and Hu, Shengding and Zheng, Zhi and Zhou, Jie and Cai, Jie and Han, Xu and Zeng, Guoyang and Li, Dahai and Liu, Zhiyuan and Sun, Maosong},
journal={arXiv preprint 2408.01800},
year={2024},
}








