M

Minicpm V 2

Developed by openbmb
MiniCPM-V 2.0是面向高效終端部署的強大多模態大語言模型,基於SigLip-400M和MiniCPM-2.4B構建,通過感知器重採樣器連接。
Downloads 9,097
Release Time : 4/9/2024

Model Overview

MiniCPM-V 2.0是一個高效的多模態大語言模型,支持圖像和文本理解,特別擅長場景文本識別(OCR),在多項基準測試中表現優異。

Model Features

頂尖性能表現
在7B參數量以下模型中,多項基準測試達到最先進水平,OCR能力尤為突出,場景文本理解媲美Gemini Pro
可信回答生成
首個通過多模態RLHF對齊的終端側模型,防幻覺能力比肩GPT-4V
任意比例高清圖像處理
支持1344x1344分辨率的任意比例圖像輸入,實現對細小物體和光學字符的精準感知
高效部署能力
可在主流GPU和個人電腦高效運行,甚至能部署於手機等移動終端
中英雙語支持
實現中英文多模態能力均衡發展

Model Capabilities

圖像內容理解
場景文本識別
多模態對話
高分辨率圖像處理
中英文視覺問答
文檔理解
數學視覺推理

Use Cases

教育
數學題目解答
識別並解答數學題目中的視覺內容
在MathVista基準測試中表現優異
商業
文檔理解
自動理解和提取文檔中的關鍵信息
在DocVQA基準測試中表現優異
移動應用
移動端視覺問答
在手機等移動設備上實現即時視覺問答
已在小米14 Pro等設備上成功部署
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase