OWLv2-base-patch16オープンソースモデル - ゼロショット条件下でのテキストクエリによる画像オブジェクトの検索

ホーム

Owlv2 Base Patch16

googleによって開発

OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット物体検出 #オープン語彙位置特定 #CLIPバックボーンネットワーク

ダウンロード数 15.42k

リリース時間 : 10/13/2023

モデル概要

OWLv2はCLIPバックボーンネットワークに基づくオープンワールド位置特定モデルで、テキストクエリによるゼロショット物体検出をサポートします。

モデル特徴

ゼロショット検出

特定のカテゴリのトレーニングなしでテキストクエリを使用して新しいオブジェクトを検出

オープン語彙分類

分類層の重みを置き換えることで任意のテキストカテゴリの検出を実現

複数クエリサポート

単一画像内で複数のテキスト記述オブジェクトを同時に検索可能

モデル能力

画像物体検出

テキスト条件付き検索

オープン語彙認識

使用事例

コンピュータビジョン研究

ゼロショット検出研究

未知のカテゴリに対するモデルの識別能力を調査

学際的応用

特殊分野物体認識

注釈データが不足している分野（医療画像など）での物体検出

🚀 モデルカード: OWLv2

OWLv2モデル（Open-World Localizationの略称）は、画像内の物体をテキストクエリで検出するゼロショット物体検出モデルです。このモデルは、CLIPをバックボーンとして使用し、画像とテキストの特徴を抽出します。

🚀 クイックスタート

モデルの詳細

OWLv2モデル（Open-World Localizationの略称）は、Matthias Minderer、Alexey Gritsenko、Neil HoulsbyによるScaling Open-Vocabulary Object Detectionで提案されました。OWLv2は、OWL-ViTと同様に、ゼロショットのテキスト条件付き物体検出モデルであり、1つまたは複数のテキストクエリを使用して画像をクエリするために使用できます。

このモデルは、CLIPをマルチモーダルバックボーンとして使用し、ViTのようなTransformerを使用して視覚的特徴を取得し、因果言語モデルを使用してテキスト特徴を取得します。検出にCLIPを使用するために、OWL-ViTはビジョンモデルの最終トークンプーリング層を削除し、軽量の分類とボックスヘッドを各Transformer出力トークンに追加します。オープンボキャブラリ分類は、固定分類層の重みをテキストモデルから取得したクラス名埋め込みで置き換えることで可能になります。著者らはまず、CLIPをゼロからトレーニングし、二部マッチング損失を使用して標準的な検出データセット上で分類とボックスヘッドでエンドツーエンドで微調整します。画像ごとに1つまたは複数のテキストクエリを使用して、ゼロショットのテキスト条件付き物体検出を実行できます。

モデルの日付

2023年6月

モデルの種類

このモデルは、ViT-B/16 Transformerアーキテクチャを持つCLIPバックボーンを画像エンコーダとして使用し、マスク付き自己注意Transformerをテキストエンコーダとして使用します。これらのエンコーダは、対照損失を介して（画像、テキスト）ペアの類似性を最大化するようにトレーニングされています。CLIPバックボーンはゼロからトレーニングされ、物体検出の目的でボックスとクラス予測ヘッドと一緒に微調整されます。

ドキュメント

OWLv2論文

Transformersでの使用

import requests
from PIL import Image
import numpy as np
import torch
from transformers import AutoProcessor, Owlv2ForObjectDetection
from transformers.utils.constants import OPENAI_CLIP_MEAN, OPENAI_CLIP_STD

processor = AutoProcessor.from_pretrained("google/owlv2-base-patch16")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")

# forward pass
with torch.no_grad():
    outputs = model(**inputs)

# Note: boxes need to be visualized on the padded, unnormalized image
# hence we'll set the target image sizes (height, width) based on that

def get_preprocessed_image(pixel_values):
    pixel_values = pixel_values.squeeze().numpy()
    unnormalized_image = (pixel_values * np.array(OPENAI_CLIP_STD)[:, None, None]) + np.array(OPENAI_CLIP_MEAN)[:, None, None]
    unnormalized_image = (unnormalized_image * 255).astype(np.uint8)
    unnormalized_image = np.moveaxis(unnormalized_image, 0, -1)
    unnormalized_image = Image.fromarray(unnormalized_image)
    return unnormalized_image

unnormalized_image = get_preprocessed_image(inputs.pixel_values)

target_sizes = torch.Tensor([unnormalized_image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to final bounding boxes and scores
results = processor.post_process_object_detection(
    outputs=outputs, threshold=0.2, target_sizes=target_sizes
)

i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

📚 モデルの使用

意図された用途

このモデルは、研究コミュニティ向けの研究成果として意図されています。このモデルが研究者にゼロショットのテキスト条件付き物体検出をよりよく理解し、探索することを可能にすることを期待しています。また、このようなモデルの潜在的な影響に関する学際的研究、特にトレーニング中にラベルが利用できない物体を識別することが一般的に必要な分野での研究にも使用できることを期待しています。

主な意図された用途

これらのモデルの主な意図されたユーザーはAI研究者です。

主に、研究者がコンピュータビジョンモデルのロバスト性、汎化能力、その他の機能、バイアス、制約をよりよく理解するためにこのモデルを使用することを想定しています。

📦 データ

このモデルのCLIPバックボーンは、公開されている画像キャプションデータでトレーニングされました。これは、いくつかのウェブサイトをクロールし、YFCC100Mなどの一般的に使用されている既存の画像データセットを使用することで行われました。データの大部分は、インターネットのクロールから得られています。これは、データがインターネットに最も接続されている人々と社会をより代表していることを意味します。OWL-ViTの予測ヘッドは、CLIPバックボーンとともに、COCOやOpenImagesなどの公開されている物体検出データセットで微調整されています。

（v2用に更新予定）

BibTeXエントリと引用情報

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}