MiniCPM-Llama3-V-2_5開源多模態大模型，單多圖及視頻理解超GPT-4V，iPad可即時用

首頁

Minicpm Llama3 V 2 5

由openbmb開發

MiniCPM-V 2.6是OpenBMB推出的多模態大模型，在單圖、多圖及視頻理解任務上超越GPT-4V，支持iPad端即時視頻理解。

圖像生成文本

Transformers

其他#端側多模態 #超強OCR #多語言支持

下載量 31.48k

發布時間 : 5/19/2024

模型概述

MiniCPM-V 2.6是基於SigLip-400M和Llama3-8B-Instruct構建的多模態大模型，參數量總計8B，在OCR、多語言支持、終端設備部署等方面具有顯著優勢。

模型特點

頂尖性能

在OpenCompass評測中以65.1的平均分超越GPT-4V-1106、Gemini Pro等商用模型

超強OCR能力

支持任意長寬比圖像處理（最高1344x1344/180萬像素），在OCRBench評測中獲得700+分

多語言支持

支持中英德法西意韓日等30+語言

終端設備高效部署

通過量化、CPU/NPU優化、編譯優化等方案，實現在終端設備的高效運行

模型能力

圖像理解

文本生成

多語言處理

OCR識別

視頻理解

複雜推理

指令跟隨

使用案例

文檔處理

全文提取

從圖像中提取完整文本內容

高精度提取效果

表格轉Markdown

將圖像中的表格轉換為Markdown格式

結構化輸出

多語言應用

多語言圖像理解

支持30+語言的圖像內容理解

跨語言泛化能力

終端設備應用

移動端即時視頻理解

在iPad等設備上實現即時視頻內容分析

高效運行

🚀 MiniCPM-Llama3-V 2.5：手機上的GPT - 4V級多模態大語言模型

MiniCPM-Llama3-V 2.5是一款強大的多模態大語言模型，能夠在手機等設備上運行，達到GPT - 4V級別的性能。它具備領先的性能、強大的OCR能力、多語言支持等特點，為用戶帶來高效便捷的多模態交互體驗。

項目信息

屬性	詳情
模型類型	多模態大語言模型
訓練數據	openbmb/RLAIF - V - Dataset
庫名稱	transformers
標籤	minicpm - v、vision、ocr、custom_code
支持語言	多語言
任務類型	圖像 - 文本到文本

GitHub | Demo | 微信

📌 最新消息

置頂消息

[2025.01.14] 🔥🔥 🔥 我們開源了 MiniCPM - o 2.6，相較於 MiniCPM - V 2.6 性能有顯著提升，支持即時語音到語音對話和多模態直播。立即試用。
[2024.08.10] 🚀🚀🚀 MiniCPM - Llama3 - V 2.5 現已得到官方 llama.cpp 的全面支持！各種大小的GGUF模型可在此處獲取。
[2024.08.06] 🔥🔥🔥 我們開源了 MiniCPM - V 2.6，在單圖像、多圖像和視頻理解方面優於GPT - 4V。它改進了MiniCPM - Llama3 - V 2.5的流行功能，並支持在iPad上進行即時視頻理解。立即試用！
[2024.08.03] MiniCPM - Llama3 - V 2.5技術報告發布！詳情見此處。
[2024.07.19] MiniCPM - Llama3 - V 2.5現在支持vLLM！詳情見此處。
[2024.05.28] 💫 我們現在支持對MiniCPM - Llama3 - V 2.5進行LoRA微調，僅需2塊V100 GPU！更多統計信息見此處。
[2024.05.23] 🔥🔥🔥 MiniCPM - V登上GitHub趨勢和HuggingFace趨勢！我們的演示受到Hugging Face Gradio官方賬號推薦，可在此處試用。
[2024.05.20] 我們開源了MiniCPM - Llama3 - V 2.5，它提高了OCR能力，支持30多種語言，是首個達到GPT - 4V級別性能的端側多模態大語言模型！我們提供高效推理和簡單微調。立即試用！

✨ 主要特性

MiniCPM - Llama3 - V 2.5 是MiniCPM - V系列的最新模型。該模型基於SigLip - 400M和Llama3 - 8B - Instruct構建，總共有80億參數。與MiniCPM - V 2.0相比，它的性能有顯著提升。其主要特性包括：

🔥 領先性能：MiniCPM - Llama3 - V 2.5在OpenCompass上的平均得分達到65.1分，這是對11個流行基準的綜合評估。僅80億參數的它，超越了廣泛使用的專有模型，如GPT - 4V - 1106、Gemini Pro、Claude 3和Qwen - VL - Max，並大幅優於其他基於Llama 3的多模態大語言模型。
💪 強大的OCR能力：MiniCPM - Llama3 - V 2.5可以處理任意寬高比、像素高達180萬（如1344x1344）的圖像，在OCRBench上的得分超過700分，超越了GPT - 4o、GPT - 4V - 0409、Qwen - VL - Max和Gemini Pro等專有模型。根據最新用戶反饋，MiniCPM - Llama3 - V 2.5現在增強了全文OCR提取、表格轉Markdown轉換等高實用性功能，並進一步強化了指令遵循和複雜推理能力，提升了多模態交互體驗。
🏆 可靠行為：藉助最新的 RLAIF - V 方法（RLHF - V [CVPR'24]系列中的最新技術），MiniCPM - Llama3 - V 2.5表現出更可靠的行為。它在Object HalBench上的幻覺率為 10.3%，低於GPT - 4V - 1106（13.6%），在開源社區中達到了最佳水平。數據發佈。
🌏 多語言支持：得益於Llama 3強大的多語言能力和 VisCPM 的跨語言泛化技術，MiniCPM - Llama3 - V 2.5將其中英文雙語多模態能力擴展到了 包括德語、法語、西班牙語、意大利語、韓語、日語等在內的30多種語言。所有支持的語言。
🚀 高效部署：MiniCPM - Llama3 - V 2.5系統地採用了 模型量化、CPU優化、NPU優化和編譯優化，實現了在邊緣設備上的高效部署。對於配備高通芯片的手機，我們首次將NPU加速框架QNN集成到llama.cpp中。經過系統優化，MiniCPM - Llama3 - V 2.5實現了 多模態大模型端側圖像編碼加速150倍 和 語言解碼速度提升3倍。
💫 易於使用：MiniCPM - Llama3 - V 2.5可以通過多種方式輕鬆使用：
- llama.cpp 和 ollama 支持在本地設備上進行高效的CPU推理。
- GGUF 格式的16種量化模型。
- 僅需2塊V100 GPU的高效 LoRA 微調。
- 流式輸出。
- 使用 Gradio 和 Streamlit 快速搭建本地WebUI演示。
- 在 HuggingFace Spaces 上進行交互式演示。

評估結果

多模態基準評估

模型在TextVQA、DocVQA、OCRBench、OpenCompass MultiModal Avg、MME、MMBench、MMMU、MathVista、LLaVA Bench、RealWorld QA、Object HalBench等基準測試上的結果如下：

多語言LLaVA Bench評估結果

示例展示

綜合示例

端設備部署示例

我們將MiniCPM - Llama3 - V 2.5部署在端設備上。以下演示視頻是小米14 Pro的原始屏幕錄製，未經過編輯。

🚀 快速開始

在線體驗

點擊此處試用 MiniCPM - Llama3 - V 2.5 的演示。

本地部署

手機部署

相關內容即將推出。

使用Huggingface transformers在NVIDIA GPU上進行推理

在Python 3.10環境下測試的依賴要求如下：

Pillow==10.1.0
torch==2.1.2
torchvision==0.16.2
transformers==4.40.0
sentencepiece==0.1.99

# test.py
import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5', trust_remote_code=True, torch_dtype=torch.float16)
model = model.to(device='cuda')

tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5', trust_remote_code=True)
model.eval()

image = Image.open('xx.jpg').convert('RGB')
question = 'What is in the image?'
msgs = [{'role': 'user', 'content': question}]

res = model.chat(
    image=image,
    msgs=msgs,
    tokenizer=tokenizer,
    sampling=True, # if sampling=False, beam_search will be used by default
    temperature=0.7,
    # system_prompt='' # pass system_prompt if needed
)
print(res)

## if you want to use streaming, please make sure sampling=True and stream=True
## the model.chat will return a generator
res = model.chat(
    image=image,
    msgs=msgs,
    tokenizer=tokenizer,
    sampling=True,
    temperature=0.7,
    stream=True
)

generated_text = ""
for new_text in res:
    generated_text += new_text
    print(new_text, flush=True, end='')

更多使用細節請參考 GitHub。

使用llama.cpp進行推理

MiniCPM - Llama3 - V 2.5現在可以使用llama.cpp運行！更多詳情請見我們的 llama.cpp分支。

下載int4量化版本

為了減少GPU內存（8GB）使用，可下載int4量化版本：MiniCPM - Llama3 - V 2_5 - int4。

MiniCPM - V 2.0相關信息

請見此處關於MiniCPM - V 2.0的信息。

📄 許可證

模型許可證

本倉庫中的代碼遵循 Apache - 2.0 許可證發佈。
MiniCPM - V系列模型權重的使用必須嚴格遵循 MiniCPM Model License.md。
MiniCPM的模型和權重完全免費用於學術研究，填寫 "問卷" 註冊後，也可免費用於商業用途。

聲明

作為一個大語言模型，MiniCPM - Llama3 - V 2.5通過學習大量文本生成內容，但它無法理解、表達個人觀點或做出價值判斷。MiniCPM - Llama3 - V 2.5生成的任何內容均不代表模型開發者的觀點和立場。
我們不對使用MinCPM - V開源模型產生的任何問題負責，包括但不限於數據安全問題、輿論風險，或因模型的誤導、誤用、傳播或濫用而產生的任何風險和問題。

🔗 相關項目

歡迎探索MiniCPM - V 2.6的關鍵技術和我們團隊的其他多模態項目： VisCPM | RLHF - V | LLaVA - UHD | RLAIF - V

📝 引用

如果您覺得我們的工作有幫助，請考慮引用我們的論文並給項目點贊！

@article{yao2024minicpmv,
      title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone}, 
      author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and Chen, Qianyu and Zhou, Huarong and Zou, Zhensheng and Zhang, Haoye and Hu, Shengding and Zheng, Zhi and Zhou, Jie and Cai, Jie and Han, Xu and Zeng, Guoyang and Li, Dahai and Liu, Zhiyuan and Sun, Maosong},
      journal={arXiv preprint 2408.01800},
      year={2024},
}