オープンソースOWLv2-base-patch16-finetunedモデル - ゼロサンプルでのテキストによる画像オブジェクト検索をサポート

ホーム

Owlv2 Base Patch16 Finetuned

googleによって開発

OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。

物体検出

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット物体検出 #オープン語彙認識 #マルチモーダル視覚モデル

ダウンロード数 2,698

リリース時間 : 10/13/2023

モデル概要

OWLv2はCLIPバックボーンネットワークに基づくオープンワールドローカライゼーションモデルで、特定のカテゴリのトレーニングデータなしでテキストクエリによって画像内のオブジェクトを検出できます。

モデル特徴

ゼロショット検出能力

特定カテゴリのトレーニングデータが不要で、テキストクエリを通じて直接新しいカテゴリのオブジェクトを検出可能

オープン語彙認識

トレーニングデータに存在しないカテゴリ名を認識可能

マルチクエリ検出

複数のテキストクエリを同時使用したオブジェクト検出をサポート

モデル能力

画像内の物体検出

テキスト条件付き物体位置特定

オープン語彙認識

ゼロショット学習

使用事例

コンピュータビジョン研究

ゼロショット物体検出研究

未見カテゴリに対するモデルの検出能力を研究するために使用

学際的応用

専門分野の物体認識

医療、農業などの専門分野でトレーニングデータに稀なオブジェクトを認識

🚀 モデルカード: OWLv2

OWLv2モデル（Open-World Localizationの略称）は、ゼロショットのテキスト条件付き物体検出モデルです。このモデルを使用すると、1つまたは複数のテキストクエリで画像をクエリすることができます。

🚀 クイックスタート

OWLv2モデルは、画像内の物体をテキストクエリを使って検出することができます。以下のセクションでは、モデルの詳細、使用方法、データについて説明します。

✨ 主な機能

ゼロショットのテキスト条件付き物体検出が可能です。
CLIPをマルチモーダルバックボーンとして使用しています。
1つまたは複数のテキストクエリを使って画像をクエリすることができます。

📦 インストール

このモデルはtransformersライブラリを通じて使用できます。以下のコマンドで必要なライブラリをインストールできます。

pip install transformers requests pillow torch

💻 使用例

基本的な使用法

import requests
from PIL import Image
import torch

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-finetuned")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-finetuned")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to Pascal VOC Format (xmin, ymin, xmax, ymax)
results = processor.post_process_object_detection(outputs=outputs, target_sizes=target_sizes, threshold=0.1)
i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

📚 ドキュメント

モデルの詳細

OWLv2モデル（Open-World Localizationの略称）は、Matthias Minderer、Alexey Gritsenko、Neil HoulsbyによるScaling Open-Vocabulary Object Detectionで提案されました。OWLv2は、OWL-ViTと同様に、ゼロショットのテキスト条件付き物体検出モデルであり、1つまたは複数のテキストクエリで画像をクエリするために使用できます。

このモデルは、CLIPをマルチモーダルバックボーンとして使用しており、ViTのようなTransformerを使用して視覚的な特徴を取得し、因果言語モデルを使用してテキストの特徴を取得します。CLIPを検出に使用するために、OWL-ViTはビジョンモデルの最後のトークンプーリング層を削除し、各Transformer出力トークンに軽量の分類とボックスヘッドを追加します。固定分類層の重みを、テキストモデルから取得したクラス名埋め込みに置き換えることで、オープンボキャブラリ分類が可能になります。著者らはまず、CLIPをゼロから学習させ、二部マッチング損失を使用して標準的な検出データセット上で分類とボックスヘッドとともにエンドツーエンドで微調整します。画像ごとに1つまたは複数のテキストクエリを使用して、ゼロショットのテキスト条件付き物体検出を実行できます。

モデルの日付

2023年6月

モデルの種類

このモデルは、画像エンコーダとしてViT-B/16 Transformerアーキテクチャを持つCLIPバックボーンを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用しています。これらのエンコーダは、対照的な損失を通じて（画像、テキスト）ペアの類似性を最大化するように学習されています。CLIPバックボーンはゼロから学習され、物体検出の目的でボックスとクラス予測ヘッドとともに微調整されています。

🔧 技術詳細

このモデルのCLIPバックボーンは、公開されている画像キャプションデータで学習されました。これは、いくつかのWebサイトをクローリングし、YFCC100Mなどの一般的に使用される既存の画像データセットを組み合わせて行われました。データの大部分は、インターネットのクローリングから得られています。これは、データがインターネットに最も接続されている人々や社会をより代表していることを意味します。OWL-ViTの予測ヘッドは、CLIPバックボーンとともに、COCOやOpenImagesなどの公開されている物体検出データセットで微調整されています。

BibTeXエントリと引用情報

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}