I

Imp V1.5 4B Phi3

Developed by MILVLG
Imp-v1.5-4B-Phi3は高性能で軽量なマルチモーダル大規模モデルで、わずか40億パラメータを持ち、Phi-3フレームワークとSigLIP視覚エンコーダーに基づいて構築されています。
Downloads 140
Release Time : 5/20/2024

Model Overview

このモデルは高性能な軽量マルチモーダル大規模モデルの構築を目指し、数百万の混合データセットでトレーニングされ、さまざまな視覚言語タスクに適しています。

Model Features

軽量設計
わずか40億パラメータで、同類のモデルと比べて軽量であり、リソースが限られた環境に適しています。
高性能マルチモーダル
テキストと視覚情報の処理能力を組み合わせ、複数のベンチマークテストで優れた性能を発揮します。
効率的な視覚エンコーディング
SigLIP視覚エンコーダーを採用し、画像入力を効果的に処理します。

Model Capabilities

テキスト生成
画像理解
視覚的質問応答
マルチモーダル推論

Use Cases

教育
視覚的質問応答
画像内容に関するさまざまな質問に答える
VQAv2データセットで81.5点を達成
研究
マルチモーダルベンチマークテスト
マルチモーダルモデルの総合的な能力を評価するために使用
MME(P)ベンチマークで1507.7点を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase