M

Minicpm V 2 6

由jchevallard開發
MiniCPM-V 2.6是MiniCPM-V系列最新最強的多模態大模型,支持單圖、多圖和視頻理解,具有領先的性能和極致效率。
下載量 118
發布時間 : 8/30/2024

模型概述

MiniCPM-V 2.6是一個基於SigLip-400M和Qwen2-7B構建的多模態大模型,總參數量達80億。該模型支持單圖、多圖和視頻理解,具有強大的OCR和多語言能力,適用於多種視覺和語言任務。

模型特點

領先性能
在OpenCompass綜合評估中,MiniCPM-V 2.6平均得分達65.2分,超越GPT-4o mini、GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet等商用模型的單圖理解能力。
多圖理解與上下文學習
支持跨多圖對話推理,在Mantis-Eval、BLINK、Mathverse mv和Sciverse mv等多圖基準上達到SOTA水平,並展現出優秀的上下文學習能力。
視頻理解
支持視頻輸入,可進行時空信息對話與密集描述。在Video-MME基準上超越GPT-4V、Claude 3.5 Sonnet和LLaVA-NeXT-Video-34B。
強大OCR與其他能力
支持任意長寬比圖像(最高1344x1344/180萬像素)處理,在OCRBench上達到SOTA水平,超越GPT-4o、GPT-4V和Gemini 1.5 Pro等商用模型。
極致效率
具備SOTA級token密度,處理180萬像素圖像僅生成640個token,比主流模型少75%,直接提升推理速度、首token延遲、內存佔用和功耗表現。
開箱即用
提供多種使用方式,包括本地CPU推理、量化模型、vLLM推理、新領域/任務微調、快速本地WebUI部署和在線演示。

模型能力

單圖理解
多圖理解
視頻理解
OCR
多語言支持
上下文學習
跨圖對話推理
時空信息對話
密集描述

使用案例

圖像理解
OCR識別
識別圖像中的文字信息
在OCRBench上達到SOTA水平
多圖對比
比較多張圖像的異同
在Mantis-Eval、BLINK等多圖基準上達到SOTA水平
視頻理解
視頻內容分析
分析視頻中的時空信息
在Video-MME基準上超越GPT-4V、Claude 3.5 Sonnet和LLaVA-NeXT-Video-34B
多語言應用
多語言菜單翻譯
翻譯圖像中的多語言菜單
支持中英德法意韓等多語言
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase