UForm-Gen-Chatオープンソース多モーダル対話モデル - 画像記述とビジュアル質問応答を無料で実現

ホーム

Uform Gen Chat

unum-cloudによって開発

UForm-Gen-ChatはUForm-Genのマルチモーダルチャットファインチューニング版で、主に画像キャプション生成と視覚的質問応答タスクに使用されます。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #軽量マルチモーダル #視覚的質問応答 #画像キャプション生成

ダウンロード数 65

リリース時間 : 12/27/2023

モデル概要

UForm-Genは小型の生成的視覚言語モデルで、視覚エンコーダーと命令データセットでファインチューニングされた言語モデルを含み、画像理解と生成タスクに適しています。

モデル特徴

マルチモーダル能力

視覚と言語処理能力を組み合わせ、画像関連のコンテンツを理解し生成できる

軽量

同類モデルと比較してパラメータ規模が小さい(1.5B)、リソースが限られた環境に適している

対話最適化

マルチモーダル対話シナリオ向けに特別にファインチューニングされている

モデル能力

画像キャプション生成

視覚的質問応答

マルチモーダル対話

画像内容理解

使用事例

コンテンツ理解

画像キャプション生成

入力画像に対して自然言語の説明を生成する

CLIPScore: 0.860(長文), 0.858(短文)

視覚的質問応答

画像内容に関する自然言語の質問に答える

人間とコンピュータの相互作用

マルチモーダル対話

画像内容に基づいて自然言語で対話する

🚀 UForm

ポケットサイズのマルチモーダルAI
コンテンツの理解と生成のために

🚀 クイックスタート

UForm-Genは、主に画像キャプショニングと視覚的質問応答のために設計された小型の生成型ビジョン言語モデルです。このモデルは2つの部分から構成されています。

UForm Vision Encoder
Sheared-LLaMA-1.3B を命令データセットで手動調整したもの

このモデルは、MSCOCO、SBU Captions、Visual Genome、VQAv2、GQA、およびいくつかの内部データセットで事前学習されています。UForm-Gen-Chatは、マルチモーダルチャット用のUForm-Gen のSFTバージョンです。

✨ 主な機能

画像キャプショニング
視覚的質問応答
マルチモーダルチャット

📦 インストール

pip install uform

💻 使用例

基本的な使用法

CLIデモを実行するには、以下のコマンドを実行します。

uform-chat --model unum-cloud/uform-gen-chat --image_path=zebra.jpg
uform-chat --model unum-cloud/uform-gen-chat --image_path=zebra.jpg --device="cuda:0" --fp16

高度な使用法

コード内でモデルを使用するには、以下のようにします。

from uform.gen_model import VLMForCausalLM, VLMProcessor

model = VLMForCausalLM.from_pretrained("unum-cloud/uform-gen-chat")
processor = VLMProcessor.from_pretrained("unum-cloud/uform-gen-chat")

prompt = "What do you see?"
image = Image.open("zebra.jpg")

inputs = processor(texts=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
     output = model.generate(
        **inputs,
        do_sample=False,
        use_cache=True,
        max_new_tokens=128,
        eos_token_id=32001,
        pad_token_id=processor.tokenizer.pad_token_id
    )

prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]

📚 ドキュメント

キャプショニング評価では、CLIPScoreとRefCLIPScore¹ を測定します。

モデル	サイズ	キャプション長	CLIPScore	RefCLIPScore
`llava-hf/llava-1.5-7b-hf`	7B	Long	0.878	0.529
`llava-hf/llava-1.5-7b-hf`	7B	Short	0.886	0.531

`Salesforce/instructblip-vicuna-7b`	7B	Long	0.902	0.534
`Salesforce/instructblip-vicuna-7b`	7B	Short	0.848	0.523

`unum-cloud/uform-gen-chat`	1.5B	Long	0.860	0.525
`unum-cloud/uform-gen-chat`	1.5B	Short	0.858	0.525