TinyLLaVA-Phi-2-SigLIP-3.1Bオープンソースマルチモーダルモデル - 小サイズで一部の7Bモデルの性能を上回る

Home

Tinyllava Phi 2 SigLIP 3.1B

Developed by tinyllava

TinyLLaVA-Phi-2-SigLIP-3.1Bは3.1Bパラメータ規模の小型大規模マルチモーダルモデルで、Phi-2言語モデルとSigLIP視覚モデルを組み合わせており、一部の7Bモデルを性能で凌駕します。

画像生成テキスト

Transformers

Open Source License:Apache-2.0 #小規模マルチモーダル #効率的な視覚言語理解 #マルチタスク性能優越

Downloads 4,295

Release Time : 5/15/2024

Model Overview

このモデルは画像テキストからテキストへのマルチモーダルモデルで、画像とテキストの結合入力を処理し、対応するテキスト出力を生成できます。

Model Features

効率的な性能

3.1Bパラメータ規模のモデル性能が一部7Bモデル（LLaVA-1.5やQwen-VLなど）を凌駕します。

マルチモーダル能力

画像とテキスト入力を同時に処理し、一貫性のあるテキスト出力を生成できます。

モジュール設計

TinyLLaVA Factoryコードベースに基づき、柔軟なモデルコンポーネントの交換と拡張をサポートします。

Model Capabilities

画像理解

テキスト生成

マルチモーダル推論

視覚的質問応答

Use Cases

視覚的質問応答

画像内容質問応答

入力画像に基づいて関連質問に回答

VQAv2データセットで80.1の精度を達成

マルチモーダル対話

画像誘導対話

画像内容に基づく自然言語対話

MM-VET評価で37.5のスコアを達成

🚀 TinyLLaVA

TinyLLaVAは、14億から31億のパラメータ規模の小規模な大規模マルチモーダルモデル（LMM）ファミリーをリリースしています。我々の最高性能のモデルであるTinyLLaVA-Phi-2-SigLIP-3.1Bは、LLaVA-1.5やQwen-VLなどの既存の70億パラメータモデルと比較して、総合的な性能が優れています。

🚀 クイックスタート

ここでは、TinyLLaVA Factory コードベースで学習されたTinyLLaVA-Phi-2-SigLIP-3.1Bを紹介します。大規模言語モデル（LLM）とビジョンタワーには、それぞれPhi-2とsiglip-so400m-patch14-384を選択しています。このモデルの学習に使用されたデータセットは、ShareGPT4Vデータセットです。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM

hf_path = 'tinyllava/TinyLLaVA-Phi-2-SigLIP-3.1B'
model = AutoModelForCausalLM.from_pretrained(hf_path, trust_remote_code=True)
model.cuda()
config = model.config
tokenizer = AutoTokenizer.from_pretrained(hf_path, use_fast=False, model_max_length = config.tokenizer_model_max_length,padding_side = config.tokenizer_padding_side)
prompt="What are these?"
image_url="http://images.cocodataset.org/test-stuff2017/000000000001.jpg"
output_text, genertaion_time = model.chat(prompt=prompt, image=image_url, tokenizer=tokenizer)

print('model output:', output_text)
print('runing time:', genertaion_time)

📚 ドキュメント

結果

モデル名	vqav2	gqa	sqa	textvqa	MM - VET	POPE	MME	MMMU
[LLaVA - 1.5 - 7B](https://huggingface.co/llava - hf/llava - 1.5 - 7b - hf)	78.5	62.0	66.8	58.2	30.5	85.9	1510.7	-
[bczhou/TinyLLaVA - 3.1B](https://huggingface.co/bczhou/TinyLLaVA - 3.1B) (旧モデル)	79.9	62.0	69.1	59.1	32.0	86.4	1464.9	-
[tinyllava/TinyLLaVA - Gemma - SigLIP - 2.4B](https://huggingface.co/tinyllava/TinyLLaVA - Gemma - SigLIP - 2.4B)	78.4	61.6	64.4	53.6	26.9	86.4	1339.0	31.7
[tinyllava/TinyLLaVA - Phi - 2 - SigLIP - 3.1B](https://huggingface.co/tinyllava/TinyLLaVA - Phi - 2 - SigLIP - 3.1B)	80.1	62.1	73.0	60.3	37.5	87.2	1466.4	38.4

P.S. TinyLLaVA Factoryは、コード実装の簡素さ、新機能の拡張性、学習結果の再現性に重点を置いた、小規模LMM用のオープンソースのモジュール化されたコードベースです。このコードリポジトリは、標準的な学習と評価パイプライン、柔軟なデータ前処理とモデル構成、および拡張しやすいアーキテクチャを提供しています。ユーザーは最小限のコーディング作業で独自のLMMをカスタマイズできます。

TinyLLaVA Factoryは、最新のモデルと手法を統合しています。