M

Minicpm V 2 6

openbmbによって開発
MiniCPM-Vはモバイル端末向けのGPT-4Vレベルのマルチモーダル大規模言語モデルで、単一画像、複数画像、動画の理解をサポートし、視覚、光学文字認識などの機能を備えています。
ダウンロード数 91.52k
リリース時間 : 8/4/2024

モデル概要

MiniCPM-Vはマルチモーダル大規模言語モデルで、モバイル端末でGPT-4Vレベルのマルチモーダル理解能力を実現し、単一画像、複数画像、動画コンテンツの理解と分析をサポートします。

モデル特徴

モバイル端末展開
モバイル端末向けに最適化されたマルチモーダル大規模言語モデルで、効率的な動作を実現。
マルチモーダル理解
単一画像、複数画像、動画コンテンツの理解と分析をサポート。
光学文字認識
OCR機能を備え、画像からテキスト情報を抽出可能。

モデル能力

画像理解
動画理解
光学文字認識
マルチモーダル対話

使用事例

コンテンツ分析
画像内容説明
アップロードされた画像の内容分析と説明文生成。
正確な画像内容説明テキストを生成。
動画内容理解
動画内容を分析し要約やキーフレーム説明を生成。
動画のキー情報を抽出しテキスト要約を生成。
ドキュメント処理
画像文字認識
文字を含む画像からテキスト内容を抽出。
画像中の文字情報を正確に認識・抽出。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase