M

Minicpm V 2 6 Rk3588 1.1.4

Developed by c01zaut
MiniCPM-V 2.6は単一画像、複数画像、動画理解をサポートするGPT-4Vレベルのマルチモーダル大規模言語モデルで、RK3588 NPU向けに最適化されています
Downloads 31
Release Time : 11/7/2024

Model Overview

MiniCPM-V 2.6はSigLip-400MとQwen2-7Bを基に構築された80億パラメータのマルチモーダルモデルで、単一画像、複数画像、動画理解をサポートし、優れたOCR能力と多言語サポートを備えています

Model Features

リーディングパフォーマンス
OpenCompassで65.2の平均スコアを達成し、GPT-4Vなどのプロプライエタリモデルを上回りました
複数画像理解
複数画像の対話と推論をサポートし、Mantis-EvalなどのベンチマークでSOTA性能を達成しました
動画理解
動画入力をサポートし、時空間情報の高密度な記述を提供し、GPT-4Vを超える性能を発揮します
強力なOCR能力
180万ピクセルの画像を処理し、OCRBenchでGPT-4oとGemini 1.5 Proを上回りました
卓越した効率性
180万ピクセルの画像処理で640トークンしか生成せず、ほとんどのモデルよりも75%少ないです
RK3588最適化
RK3588 NPU向けに特別に最適化され、w8a8などの様々な量子化方式をサポートします

Model Capabilities

単一画像理解
複数画像対話
動画理解
OCR認識
多言語処理
リアルタイム推論

Use Cases

視覚的質問応答
画像内容記述
入力画像の詳細な記述
正確な自然言語記述を生成
複数画像推論
複数画像に基づく複雑な推論
画像間の関係を理解し合理的な結論を提供
ドキュメント処理
ドキュメントOCR
スキャンされたドキュメントからテキストを抽出
高精度な文字認識と抽出
動画分析
動画内容理解
動画内の時空間情報を分析
動画の高密度な記述を生成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase