M

Minicpm V 2

由openbmb開發
MiniCPM-V 2.0是面向高效終端部署的強大多模態大語言模型,基於SigLip-400M和MiniCPM-2.4B構建,通過感知器重採樣器連接。
下載量 9,097
發布時間 : 4/9/2024

模型概述

MiniCPM-V 2.0是一個高效的多模態大語言模型,支持圖像和文本理解,特別擅長場景文本識別(OCR),在多項基準測試中表現優異。

模型特點

頂尖性能表現
在7B參數量以下模型中,多項基準測試達到最先進水平,OCR能力尤為突出,場景文本理解媲美Gemini Pro
可信回答生成
首個通過多模態RLHF對齊的終端側模型,防幻覺能力比肩GPT-4V
任意比例高清圖像處理
支持1344x1344分辨率的任意比例圖像輸入,實現對細小物體和光學字符的精準感知
高效部署能力
可在主流GPU和個人電腦高效運行,甚至能部署於手機等移動終端
中英雙語支持
實現中英文多模態能力均衡發展

模型能力

圖像內容理解
場景文本識別
多模態對話
高分辨率圖像處理
中英文視覺問答
文檔理解
數學視覺推理

使用案例

教育
數學題目解答
識別並解答數學題目中的視覺內容
在MathVista基準測試中表現優異
商業
文檔理解
自動理解和提取文檔中的關鍵信息
在DocVQA基準測試中表現優異
移動應用
移動端視覺問答
在手機等移動設備上實現即時視覺問答
已在小米14 Pro等設備上成功部署
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase