M

Minicpm V 2 6

由 FriendliAI 开发
MiniCPM-V 2.6是一款强大的多模态大语言模型,能够在手机等设备上高效运行,支持单图像、多图像和视频理解任务。
下载量 102
发布时间 : 3/5/2025

模型简介

MiniCPM-V 2.6是一款GPT-4V级别的多模态大语言模型,具有领先的性能、高效的处理能力和丰富的功能特性,适用于单图像、多图像和视频理解任务。

模型特点

领先性能
在单图像理解方面超越了GPT-4o mini、GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet等广泛使用的专有模型。
多图像理解与上下文学习
能够对多图像进行对话和推理,在多个基准测试中达到了最先进的性能。
视频理解
支持视频输入,可进行对话并为时空信息提供密集字幕,表现优于GPT-4V、Claude 3.5 Sonnet和LLaVA-NeXT-Video-34B。
强大的OCR能力
在OCRBench上达到了最先进的性能,超越了GPT-4o、GPT-4V和Gemini 1.5 Pro等专有模型。
卓越效率
模型规模友好,展现出了最先进的令牌密度,能够在iPad等终端设备上高效支持实时视频理解。

模型能力

单图像理解
多图像对话与推理
视频理解与密集字幕
高分辨率图像处理
多语言支持
上下文学习
OCR识别

使用案例

图像分析
图像内容描述
分析图像内容并生成描述
能够准确描述图像中的物体和场景
多图像比较
比较多张图像的差异
能够识别并描述图像间的差异
视频分析
视频内容描述
分析视频内容并生成描述
能够准确描述视频中的动作和场景变化
文档处理
OCR识别
从图像中提取文字信息
在OCRBench上达到最先进性能
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase