TinyLLaVAオープンソースマルチモーダルモデル - 無料でデプロイし、視覚-言語タスクを効率的に処理

Home

Tinyllava OpenELM 450M SigLIP 0.89B

Developed by jiajunlong

TinyLLaVAは小规模の多モーダルモデルシリーズで、このモデルはOpenELM - 450MとSigLIP - 0.89Bで構成され、高効率なビジュアル - 言語タスクの処理に特化しています。

テキスト生成画像

Transformers

Open Source License:Apache-2.0 #小规模多モーダル #高効率ビジュアル質問応答 #軽量LLM統合

Downloads 102

Release Time : 4/29/2024

Model Overview

TinyLLaVAは軽量の多モーダルモデルで、言語モデルとビジュアルモデルを組み合わせ、画像とテキストの連合タスクを処理できます。

Model Features

軽量高効率

モデルのパラメータ規模が小さく、リソースが制限された環境に適しており、同時に一部の大規模モデルよりも性能が優れています。

多モーダルサポート

画像とテキストの入力を同時に処理し、ビジュアル質問応答などのタスクを完了できます。

モジュール化設計

複数の言語モデルとビジュアルモデルの組み合わせをサポートし、高い柔軟性を持っています。

Model Capabilities

ビジュアル質問応答

画像説明生成

多モーダル理解

テキスト生成

Use Cases

教育

ビジュアル質問応答

画像内容に関する質問に答え、教育シーンのインタラクティブな学習に適しています。

VQAv2データセットで71.74の正解率を達成しました。

コンテンツ生成

画像説明生成

画像に詳細なテキスト説明を生成し、障害者支援サービスやコンテンツラベリングに適しています。

🚀 TinyLLaVA

TinyLLaVAは、0.55Bから3.1Bまでの規模の小規模な多モーダルモデル（LMMs）を一連でリリースしています。我々の最良のモデルであるTinyLLaVA - Phi - 2 - SigLIP - 3.1Bは、LLaVA - 1.5やQwen - VLなどの既存の7Bモデルを全体的な性能で上回っています。

🚀 クイックスタート

モデル紹介

ここでは、TinyLLaVA - OpenELM - 450M - SigLIP - 0.89Bを紹介します。このモデルは、TinyLLaVA Factoryのコードベースで訓練されています。大規模言語モデル（LLM）とビジョンタワーについては、それぞれ[OpenELM - 450M - Instruct](apple/OpenELM - 450M - Instruct)と[siglip - so400m - patch14 - 384](https://huggingface.co/google/siglip - so400m - patch14 - 384)を選択しています。このモデルの訓練に使用されたデータセットは、[LLaVA](https://github.com/haotian - liu/LLaVA/blob/main/docs/Data.md)データセットです。

💻 使用例

基本的な使用法

以下のテストコードを実行します。

from transformers import AutoTokenizer, AutoModelForCausalLM
hf_path = 'jiajunlong/TinyLLaVA-OpenELM-450M-SigLIP-0.89B'
model = AutoModelForCausalLM.from_pretrained(hf_path, trust_remote_code=True)
model.cuda()
config = model.config
tokenizer = AutoTokenizer.from_pretrained(hf_path, use_fast=False, model_max_length = config.tokenizer_model_max_length,padding_side = config.tokenizer_padding_side)
prompt="What are these?"
image_url="http://images.cocodataset.org/test-stuff2017/000000000001.jpg"
output_text, genertaion_time = model.chat(prompt=prompt, image=image_url, tokenizer=tokenizer)
print('model output:', output_text)
print('runing time:', genertaion_time)

結果表示

モデル名	GQA	TextVQA	SQA	VQAv2	MME	MMB	MM - VET
[TinyLLaVA - 1.5B](https://huggingface.co/bczhou/TinyLLaVA - 1.5B)	60.3	51.7	60.3	76.9	1276.5	55.2	25.8
[TinyLLaVA - 0.89B](https://huggingface.co/jiajunlong/TinyLLaVA - OpenELM - 450M - SigLIP - 0.89B)	53.87	44.02	54.09	71.74	1118.75	37.8	20

TinyLLaVA Factoryについて

TinyLLaVA Factoryは、小規模な多モーダルモデル用のオープンソースのモジュール化されたコードベースです。コード実装の簡潔性、新機能の拡張性、および訓練結果の再現性に重点を置いています。このコードリポジトリは、標準的な訓練と評価のフロー、柔軟なデータ前処理とモデル構成、および拡張しやすいアーキテクチャを提供しています。ユーザーは、最小限のコーディング作業と少ないコーディングエラーで、独自の多モーダルモデルをカスタマイズすることができます。

TinyLLaVA Factoryは、一連の最先端のモデルと方法を統合しています。