tinyllava-1.1b-v0.1オープンソース視覚質問応答モデル - 軽量級設計で画像質問応答機能を実現

ホーム

Tinyllava 1.1b V0.1

0xAmeyによって開発

TinyLlama-1.1Bベースの軽量ビジュアルQAモデル、BakLlavaコードベースでトレーニング済み

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #軽量ビジュアルQA #マルチモーダルダイアログ #小型モデル効率的推論

ダウンロード数 16

リリース時間 : 11/1/2023

モデル概要

これは視覚と言語理解を組み合わせたマルチモーダルモデルで、画像内容に基づいて関連質問に回答可能

モデル特徴

軽量アーキテクチャ

1.1BパラメータのTinyLlamaベースで、リソース制約環境に適している

マルチモーダル理解

視覚と言語情報を同時処理し、画像内容理解を実現

オープンソースライセンス

Apache-2.0ライセンス採用で、商用・研究利用が可能

モデル能力

画像内容理解

ビジュアルQA

マルチモーダル推論

使用事例

コンテンツ理解

画像キャプション生成

画像内容に基づいてテキスト記述を生成

アニメやAI生成画像の内容を正確に識別できる事例を表示

教育支援

視覚学習アシスタント

教材中の画像内容理解を学生支援

🚀 視覚的質問応答モデル

このモデルは、視覚的質問応答のタスクに特化しており、特定のベースモデルを用いて訓練され、画像に関する質問に回答することができます。

🚀 クイックスタート

このモデルを使う前に、以下の手順に従ってセットアップしてください。

📦 インストール

Linuxを使用していない場合は、進めないでください。macOS と Windows の手順を参照してください。

このリポジトリをクローンし、LLaVAフォルダに移動します。

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA

パッケージをインストールします。

conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip  # enable PEP 660 support
pip install -e .

トレーニング用の追加パッケージをインストールします。

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

最新のコードベースにアップグレードする

git pull
pip install -e .

コントローラを起動する

python -m llava.serve.controller --host 0.0.0.0 --port 10000

Gradioウェブサーバを起動する

python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

これでGradioウェブインターフェースが起動しました。画面に表示されたURLを使ってウェブインターフェースを開くことができます。モデルリストにモデルが表示されていない場合は心配しないでください。まだモデルワーカーを起動していないためです。モデルワーカーを起動すると自動的に更新されます。

モデルワーカーを起動する

これはGPU上で推論を行う実際のワーカーです。各ワーカーは --model-path で指定された単一のモデルに責任を持ちます。

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path ameywtf/tinyllava-1.1b-v0.1

プロセスがモデルの読み込みを完了し、"Uvicorn running on ..." が表示されるまで待ちます。これでGradioウェブUIを更新すると、モデルリストに新しく起動したモデルが表示されます。

必要なだけワーカーを起動することができ、同じGradioインターフェースで異なるモデルチェックポイントを比較することができます。--controller は同じにし、各ワーカーの --port と --worker を異なるポート番号に変更してください。

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port <40000と異なる番号、例えば40001> --worker http://localhost:<それに応じて変更、例えば40001> --model-path <ckpt2>

M1またはM2チップのAppleデバイスを使用している場合は、--device フラグを使って --device mps を指定することができます。