uform - genオープンソースの視覚言語モデル、無料でデプロイして画像記述生成と視覚質問応答を実現

ホーム

Uform Gen

unum-cloudによって開発

UForm-Genは小型の生成的視覚言語モデルで、主に画像キャプション生成と視覚的質問応答に使用されます。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #軽量マルチモーダル #画像キャプション生成 #視覚的質問応答

ダウンロード数 152

リリース時間 : 12/25/2023

モデル概要

UForm-GenはポケットサイズのマルチモーダルAIモデルで、視覚エンコーダーと言語モデルを組み合わせ、コンテンツの理解と生成に使用されます。特に画像キャプションと視覚的質問応答タスクに優れています。

モデル特徴

軽量で効率的

わずか1.5Bパラメータの小型モデルで、推論速度は140トークン/秒、7Bモデルの3.5倍の速度

マルチモーダル理解

視覚と言語能力を組み合わせ、画像とテキスト入力を同時に処理可能

多機能生成

プロンプト制御により、画像キャプション、コンテンツ要約、視覚的質問応答など複数のタスクを実行可能

モデル能力

画像キャプション生成

視覚的質問応答

コンテンツ要約

マルチモーダル理解

使用事例

コンテンツ理解

画像キャプション

画像に対して詳細または簡潔なテキスト説明を生成

CLIPScoreが0.847(長文)/0.842(短文)を達成

視覚的質問応答

画像内容に関する自然言語質問に回答

VQAv2データセットで66.5の精度

コンテンツ作成

ソーシャルメディアコンテンツ生成

ソーシャルメディア用の画像説明文を自動生成

🚀 UForm

ポケットサイズのマルチモーダルAI
コンテンツの理解と生成のために

🚀 クイックスタート

UForm-Genは、主に画像キャプショニングと視覚的質問応答のために設計された小型の生成型ビジョン言語モデルです。このモデルは2つの部分で構成されています。

uform-vl-english ビジュアルエンコーダ
命令データセットで微調整された Sheared-LLaMA-1.3B 言語モデル

このモデルは、MSCOCO、SBU Captions、Visual Genome、VQAv2、GQA およびいくつかの内部データセットで事前学習されています。

✨ 主な機能

画像キャプショニング
視覚的質問応答
画像内容の要約

📦 インストール

pip install uform

💻 使用例

基本的な使用法

from uform.gen_model import VLMForCausalLM, VLMProcessor

model = VLMForCausalLM.from_pretrained("unum-cloud/uform-gen")
processor = VLMProcessor.from_pretrained("unum-cloud/uform-gen")

# [cap] Narrate the contents of the image with precision.
# [cap] Summarize the visual content of the image.
# [vqa] What is the main subject of the image?
prompt = "[cap] Summarize the visual content of the image."
image = Image.open("zebra.jpg")

inputs = processor(texts=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
     output = model.generate(
        **inputs,
        do_sample=False,
        use_cache=True,
        max_new_tokens=128,
        eos_token_id=32001,
        pad_token_id=processor.tokenizer.pad_token_id
    )

prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]

📚 ドキュメント

評価

画像キャプショニングの評価では、CLIPScoreとRefCLIPScore¹を測定します。

モデル	サイズ	キャプションの長さ	CLIPScore	RefCLIPScore
`llava-hf/llava-1.5-7b-hf`	7B	長い	0.878	0.529
`llava-hf/llava-1.5-7b-hf`	7B	短い	0.886	0.531

`Salesforce/instructblip-vicuna-7b`	7B	長い	0.902	0.534
`Salesforce/instructblip-vicuna-7b`	7B	短い	0.848	0.523

`unum-cloud/uform-gen`	1.5B	長い	0.847	0.523
`unum-cloud/uform-gen`	1.5B	短い	0.842	0.522

VQAv2評価の結果です。

モデル	サイズ	正解率
`llava-hf/llava-1.5-7b-hf`	7B	78.5
`unum-cloud/uform-gen`	1.5B	66.5

¹ apple/DFN5B-CLIP-ViT-H-14-378 CLIPモデルを使用しました。

速度

RTX 3090では、float16、同等のPyTorch設定、および貪欲復号を使用したテキストトークン生成で、以下のパフォーマンスが期待されます。

モデル	サイズ	速度	速度向上
`llava-hf/llava-1.5-7b-hf`	7B	~ 40トークン/秒
`Salesforce/instructblip-vicuna-7b`	7B	~ 40トークン/秒
`unum-cloud/uform-gen`	1.5B	~ 140トークン/秒	x 3.5