M

Minicpm Llama3 V 2 5

由openbmb開發
MiniCPM-V 2.6是OpenBMB推出的多模態大模型,在單圖、多圖及視頻理解任務上超越GPT-4V,支持iPad端即時視頻理解。
下載量 31.48k
發布時間 : 5/19/2024

模型概述

MiniCPM-V 2.6是基於SigLip-400M和Llama3-8B-Instruct構建的多模態大模型,參數量總計8B,在OCR、多語言支持、終端設備部署等方面具有顯著優勢。

模型特點

頂尖性能
在OpenCompass評測中以65.1的平均分超越GPT-4V-1106、Gemini Pro等商用模型
超強OCR能力
支持任意長寬比圖像處理(最高1344x1344/180萬像素),在OCRBench評測中獲得700+分
多語言支持
支持中英德法西意韓日等30+語言
終端設備高效部署
通過量化、CPU/NPU優化、編譯優化等方案,實現在終端設備的高效運行

模型能力

圖像理解
文本生成
多語言處理
OCR識別
視頻理解
複雜推理
指令跟隨

使用案例

文檔處理
全文提取
從圖像中提取完整文本內容
高精度提取效果
表格轉Markdown
將圖像中的表格轉換為Markdown格式
結構化輸出
多語言應用
多語言圖像理解
支持30+語言的圖像內容理解
跨語言泛化能力
終端設備應用
移動端即時視頻理解
在iPad等設備上實現即時視頻內容分析
高效運行
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase