instructblip-vicuna-7bオープンソース視覚言語モデル - 画像とテキストのインタラクションタスクを無料で実現

ホーム

Instructblip Vicuna 7b

Salesforceによって開発

InstructBLIPはBLIP-2をベースにした視覚的指示チューニング版で、Vicuna-7Bを言語モデルとして採用し、視覚言語タスクに特化しています。

画像生成テキスト

Transformers

英語オープンソースライセンス:その他 #視覚的指示チューニング #マルチモーダル対話 #ゼロショット画像理解

ダウンロード数 20.99k

リリース時間 : 5/22/2023

モデル概要

InstructBLIPは汎用的な視覚言語モデルで、指示チューニングによりマルチモーダル理解と生成タスクを実現します。

モデル特徴

視覚的指示チューニング

指示チューニングにより、モデルの視覚内容理解と応答能力を強化

マルチモーダル処理

画像とテキスト入力を同時に処理し、関連するテキスト出力を生成可能

Vicuna-7Bベース

高性能なVicuna-7Bを言語モデル基盤として採用

モデル能力

画像キャプション生成

視覚的質問応答

マルチモーダル理解

指示追従

使用事例

コンテンツ理解

画像異常検出

画像内の異常や通常と異なる内容を識別

画像中の異常要素を正確に記述可能

支援ツール

視覚支援

視覚障害者のために画像内容を説明

詳細な画像内容説明を提供

🚀 InstructBLIPモデル

InstructBLIPモデルは、言語モデルとしてVicuna - 7bを使用しています。InstructBLIPは、Daiらによる論文InstructBLIP: Towards General - purpose Vision - Language Models with Instruction Tuningで紹介されました。

免責事項: InstructBLIPをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

モデルの説明

InstructBLIPは、[BLIP - 2](https://huggingface.co/docs/transformers/main/model_doc/blip - 2)の視覚命令調整版です。詳細については論文を参照してください。

InstructBLIPアーキテクチャ

想定される用途と制限

使用方法は以下の通りです。

from transformers import InstructBlipProcessor, InstructBlipForConditionalGeneration
import torch
from PIL import Image
import requests

model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b")
processor = InstructBlipProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b")

device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

url = "https://raw.githubusercontent.com/salesforce/LAVIS/main/docs/_static/Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = "What is unusual about this image?"
inputs = processor(images=image, text=prompt, return_tensors="pt").to(device)

outputs = model.generate(
        **inputs,
        do_sample=False,
        num_beams=5,
        max_length=256,
        min_length=1,
        top_p=0.9,
        repetition_penalty=1.5,
        length_penalty=1.0,
        temperature=1,
)
generated_text = processor.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)

倫理的な考慮事項

このリリースは学術論文のサポートのための研究目的のみを対象としています。当社のモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。ユーザーはこのモデルをデプロイする前に、精度、安全性、および公平性に関連する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用される法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオの場合には、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社のAUPおよびAI AUPを参照してください。