Imp-v1.5-4B-Phi3オープンソースマルチモーダル大規模モデル - 軽量かつ高性能なアプリケーションに最適

Home

Imp V1.5 4B Phi3

Developed by MILVLG

Imp-v1.5-4B-Phi3は高性能で軽量なマルチモーダル大規模モデルで、わずか40億パラメータを持ち、Phi-3フレームワークとSigLIP視覚エンコーダーに基づいて構築されています。

テキスト生成画像

Transformers

Open Source License:Apache-2.0 #軽量マルチモーダル #効率的な視覚的質問応答 #モバイル最適化

Downloads 140

Release Time : 5/20/2024

Model Overview

このモデルは高性能な軽量マルチモーダル大規模モデルの構築を目指し、数百万の混合データセットでトレーニングされ、さまざまな視覚言語タスクに適しています。

Model Features

軽量設計

わずか40億パラメータで、同類のモデルと比べて軽量であり、リソースが限られた環境に適しています。

高性能マルチモーダル

テキストと視覚情報の処理能力を組み合わせ、複数のベンチマークテストで優れた性能を発揮します。

効率的な視覚エンコーディング

SigLIP視覚エンコーダーを採用し、画像入力を効果的に処理します。

Model Capabilities

テキスト生成

画像理解

視覚的質問応答

マルチモーダル推論

Use Cases

教育

視覚的質問応答

画像内容に関するさまざまな質問に答える

VQAv2データセットで81.5点を達成

研究

マルチモーダルベンチマークテスト

マルチモーダルモデルの総合的な能力を評価するために使用

MME(P)ベンチマークで1507.7点を達成

🚀 😈 Imp

Impプロジェクトは、高性能で軽量な大規模マルチモーダルモデル（LMMs）のファミリーを提供することを目指しています。

🚀 クイックスタート

Impプロジェクトは、高性能でありながら軽量な大規模マルチモーダルモデル（LMMs）のファミリーを提供することを目的としています。Imp-v1.5-4B-Phi3は、わずか40億のパラメータで強力な軽量LMMsです。これは、Phi-3 （38億）と強力な視覚エンコーダSigLIP （4億）をベースに構築され、100万件の混合データセットで訓練されています。

モデルの重みを公開し、以下にモデルを実行する例を示します。詳細な技術レポートと対応する訓練/評価コードは、近日中にGitHubリポジトリで公開されます。引き続きモデルを改善し、次のバージョンをリリースして、モデルの性能をさらに向上させます。

[論文] [デモ] [Github]

✨ 主な機能

高性能で軽量な大規模マルチモーダルモデル（LMMs）を提供します。
Imp-v1.5-4B-Phi3は、わずか40億のパラメータで強力な性能を発揮します。
混合データセットで訓練され、汎用性が高いです。

📦 インストール

依存関係のインストール

pip install transformers # 最新バージョンでも問題ありませんが、v4.36.0を推奨します
pip install -q pillow accelerate einops

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

torch.set_default_device("cuda")

# モデルの作成
model = AutoModelForCausalLM.from_pretrained(
    "MILVLG/Imp-v1.5-4B-Phi3/", 
    torch_dtype=torch.float16, 
    device_map="auto",
    trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("MILVLG/Imp-v1.5-4B-Phi3", trust_remote_code=True)

# 入力の設定
text = "<|user|>\n<image>\nWhat are the colors of the bus in the image?\n<|end|>\n<|assistant|>\n"
image = Image.open("images/bus.jpg")

input_ids = tokenizer(text, return_tensors='pt').input_ids
image_tensor = model.image_preprocess(image)

# 回答の生成
output_ids = model.generate(
    input_ids,
    max_new_tokens=100,
    images=image_tensor,
    use_cache=True)[0]
print(tokenizer.decode(output_ids[input_ids.shape[1]:], skip_special_tokens=True).strip())

テキスト命令の形式は、LLaVAに似ています。現在、この例はGPU上でのみ実行できます。

📚 ドキュメント

モデル評価

9つの一般的なベンチマーク（5つの学術的なVQAベンチマークと4つの人気のあるMLLMベンチマークを含む）で評価を行い、ImpモデルをLLaVA（7B）および同様のモデルサイズの既存の軽量LMMsと比較しました。

モデル	サイズ	VQAv2	GQA	SQA(IMG)	TextVQA	POPE	MME(P)	MMB	MMB_CN	MM-Vet
Bunny-v1.0-4B	4B	81.5	63.5	75.1	-	86.7	1495.2	73.5	-	-
Imp-v1.5-4B-Phi3	4B	81.5	63.5	78.3	60.2	86.9	1507.7	73.3	61.1	44.6

📄 ライセンス

このプロジェクトは、Apache License 2.0の下でライセンスされています。詳細については、LICENSEファイルを参照してください。

引用

研究でこのモデルを使用するか、この研究を参照する場合は、以下を引用してください。

@article{imp2024,
  title={Imp: Highly Capable Large Multimodal Models for Mobile Devices},
  author={Shao, Zhenwei and Yu, Zhou and Yu, Jun and Ouyang, Xuecheng and Zheng, Lihao and Gai, Zhenbiao and Wang, Mingyang and Ding, Jiajun},
  journal={arXiv preprint arXiv:2405.12107},
  year={2024}
}