Minicpm V
MiniCPM-Vは、エンドデバイス展開に最適化された効率的で軽量なマルチモーダルモデルで、中英バイリンガルのインタラクションをサポートし、同規模のモデルを凌駕する性能を発揮します。
ダウンロード数 19.74k
リリース時間 : 1/30/2024
モデル概要
SigLip-400MとMiniCPM-2.4Bを基盤とした効率的なマルチモーダルモデルで、知覚器リサンプラーを介して接続され、優れた視覚理解と言語生成能力を備えています。
モデル特徴
究極の効率性
わずか64の視覚トークンで、メモリ使用量が低く、主要なGPU、パソコン、さらにはスマートフォンでもスムーズに動作します
卓越した性能
MMMU、MMEなどのベンチマークテストで同規模のモデルを上回り、一部のシナリオでは9.6BパラメータのQwen-VL-Chatに匹敵します
バイリンガルサポート
中英バイリンガルのインタラクションをサポートする初めてのエンドデバイス展開可能なマルチモーダルモデルで、ICLR 2024注目論文の技術に基づいています
マルチモーダル理解
単一画像/複数画像/動画理解、iPadリアルタイム動画分析などの先進機能をサポートします
モデル能力
画像内容理解
視覚的質問応答
複数画像関連分析
動画内容理解
中英バイリンガルインタラクション
リアルタイム動画処理
使用事例
教育
動植物識別教育
カメラを通じてリアルタイムで動植物を識別し、特性を解説します
デモンストレーションできのこの種類や蛇の特徴を正確に識別しました
スマートデバイス
モバイル端末視覚アシスタント
スマートフォンでリアルタイムの画像理解と質問応答を実現します
Android/HarmonyOSシステムの展開をサポートしています
コンテンツ分析
複数画像関連理解
複数の画像の関連内容と論理関係を分析します
MMbenchテストで優れた成績を収めました
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98