M

Minicpm V 2 6 Rk3588 1.1.4

由c01zaut開發
MiniCPM-V 2.6是支持單圖、多圖和視頻理解的GPT-4V級別多模態大語言模型,專為RK3588 NPU優化
下載量 31
發布時間 : 11/7/2024

模型概述

MiniCPM-V 2.6是基於SigLip-400M和Qwen2-7B構建的8B參數多模態模型,支持單圖、多圖和視頻理解,具有領先的OCR能力和多語言支持

模型特點

領先性能
在OpenCompass上取得65.2平均分,超越GPT-4V等專有模型
多圖像理解
支持多張圖像對話和推理,在Mantis-Eval等基準上取得SOTA性能
視頻理解
支持視頻輸入,提供時空信息密集描述,性能超越GPT-4V
強大OCR能力
處理180萬像素圖像,OCRBench上超越GPT-4o和Gemini 1.5 Pro
卓越效率
處理180萬像素圖像僅生成640個令牌,比大多數模型少75%
RK3588優化
專為RK3588 NPU優化,支持w8a8等多種量化方式

模型能力

單圖理解
多圖像對話
視頻理解
OCR識別
多語言處理
即時推理

使用案例

視覺問答
圖像內容描述
對輸入圖像進行詳細描述
生成準確的自然語言描述
多圖推理
基於多張圖像進行復雜推理
理解圖像間關係並給出合理結論
文檔處理
文檔OCR
從掃描文檔中提取文字
高精度文字識別和提取
視頻分析
視頻內容理解
分析視頻中的時空信息
生成視頻的密集描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase