instructblip-flan-t5-xxlオープンソースAIモデル - 画像とテキスト指示に基づいて記述と回答を生成する

ホーム

Instructblip Flan T5 Xxl

Salesforceによって開発

InstructBLIPはBLIP-2を視覚命令チューニングしたバージョンで、画像とテキスト命令に基づいて説明や回答を生成できます

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #視覚命令チューニング #マルチモーダル質問応答 #ゼロショット画像理解

ダウンロード数 937

リリース時間 : 6/3/2023

モデル概要

このモデルはFlan-T5-xxlを言語モデルとして採用し、命令チューニングを通じて汎用的な視覚言語理解と生成能力を実現しています

モデル特徴

視覚命令チューニング

特定の命令で視覚言語モデルを最適化し、画像の理解と応答能力を向上させる

マルチモーダル理解

視覚情報とテキスト情報を同時に処理し、クロスモーダルな理解と生成を実現

オープンドメイン適応

特定の領域に限定されず、幅広い視覚言語タスクに適用可能

モデル能力

画像説明生成

視覚的質問応答

クロスモーダル理解

画像ベースの命令応答

使用事例

コンテンツ理解

画像異常検出

画像内の異常や珍しい点を識別して説明する

画像内の異常要素を正確に識別し、自然言語による説明を生成できる

支援ツール

視覚支援

視覚障害者向けに画像内容を説明する

正確で詳細な画像内容の説明を生成する

🚀 InstructBLIPモデル

InstructBLIPモデルは、言語モデルとして[Flan - T5 - xxl](https://huggingface.co/google/flan - t5 - xxl)を使用しています。InstructBLIPは、Daiらによる論文InstructBLIP: Towards General - purpose Vision - Language Models with Instruction Tuningで紹介されました。

免責事項: InstructBLIPをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

📚 ドキュメント

モデルの説明

InstructBLIPは、[BLIP - 2](https://huggingface.co/docs/transformers/main/model_doc/blip - 2)の視覚的な命令調整バージョンです。詳細については論文を参照してください。

InstructBLIPアーキテクチャ

想定される用途と制限

使用方法は以下の通りです。

💻 使用例

基本的な使用法

from transformers import InstructBlipProcessor, InstructBlipForConditionalGeneration
import torch
from PIL import Image
import requests

model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-flan-t5-xxl")
processor = InstructBlipProcessor.from_pretrained("Salesforce/instructblip-flan-t5-xxl")

device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

url = "https://raw.githubusercontent.com/salesforce/LAVIS/main/docs/_static/Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = "What is unusual about this image?"
inputs = processor(images=image, text=prompt, return_tensors="pt").to(device)

outputs = model.generate(
        **inputs,
        do_sample=False,
        num_beams=5,
        max_length=256,
        min_length=1,
        top_p=0.9,
        repetition_penalty=1.5,
        length_penalty=1.0,
        temperature=1,
)
generated_text = processor.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)

コード例の参照先

コード例については、ドキュメントを参照してください。

倫理的な考慮事項

このリリースは学術論文のサポートのための研究目的のみです。当社のモデル、データセット、コードは、すべての下流の目的に特に設計または評価されていません。このモデルをデプロイする前に、ユーザーは精度、安全性、公平性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用される法律に準拠し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社のAUPおよびAI AUPを参照してください。