instructblip-flan-t5-xxlオープンソースAIモデル - 画像とテキスト指示に基づいて記述と回答を生成する

Home

Instructblip Flan T5 Xxl

Developed by Salesforce

InstructBLIPはBLIP-2を視覚命令チューニングしたバージョンで、画像とテキスト命令に基づいて説明や回答を生成できます

画像生成テキスト

Transformers

EnglishOpen Source License:MIT #視覚命令チューニング #マルチモーダル質問応答 #ゼロショット画像理解

Downloads 937

Release Time : 6/3/2023

Model Overview

このモデルはFlan-T5-xxlを言語モデルとして採用し、命令チューニングを通じて汎用的な視覚言語理解と生成能力を実現しています

Model Features

視覚命令チューニング

特定の命令で視覚言語モデルを最適化し、画像の理解と応答能力を向上させる

マルチモーダル理解

視覚情報とテキスト情報を同時に処理し、クロスモーダルな理解と生成を実現

オープンドメイン適応

特定の領域に限定されず、幅広い視覚言語タスクに適用可能

Model Capabilities

画像説明生成

視覚的質問応答

クロスモーダル理解

画像ベースの命令応答

Use Cases

コンテンツ理解

画像異常検出

画像内の異常や珍しい点を識別して説明する

画像内の異常要素を正確に識別し、自然言語による説明を生成できる

支援ツール

視覚支援

視覚障害者向けに画像内容を説明する

正確で詳細な画像内容の説明を生成する

🚀 InstructBLIPモデル

InstructBLIPモデルは、言語モデルとして[Flan - T5 - xxl](https://huggingface.co/google/flan - t5 - xxl)を使用しています。InstructBLIPは、Daiらによる論文InstructBLIP: Towards General - purpose Vision - Language Models with Instruction Tuningで紹介されました。

免責事項: InstructBLIPをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

📚 ドキュメント

モデルの説明

InstructBLIPは、[BLIP - 2](https://huggingface.co/docs/transformers/main/model_doc/blip - 2)の視覚的な命令調整バージョンです。詳細については論文を参照してください。

InstructBLIPアーキテクチャ

想定される用途と制限

使用方法は以下の通りです。

💻 使用例

基本的な使用法

from transformers import InstructBlipProcessor, InstructBlipForConditionalGeneration
import torch
from PIL import Image
import requests

model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-flan-t5-xxl")
processor = InstructBlipProcessor.from_pretrained("Salesforce/instructblip-flan-t5-xxl")

device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

url = "https://raw.githubusercontent.com/salesforce/LAVIS/main/docs/_static/Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = "What is unusual about this image?"
inputs = processor(images=image, text=prompt, return_tensors="pt").to(device)

outputs = model.generate(
        **inputs,
        do_sample=False,
        num_beams=5,
        max_length=256,
        min_length=1,
        top_p=0.9,
        repetition_penalty=1.5,
        length_penalty=1.0,
        temperature=1,
)
generated_text = processor.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)

コード例の参照先

コード例については、ドキュメントを参照してください。

倫理的な考慮事項

このリリースは学術論文のサポートのための研究目的のみです。当社のモデル、データセット、コードは、すべての下流の目的に特に設計または評価されていません。このモデルをデプロイする前に、ユーザーは精度、安全性、公平性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用される法律に準拠し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社のAUPおよびAI AUPを参照してください。