オープンソースのOWLv2-large-patch14-finetunedモデル - ゼロショットで画像内の物体を検出し、特定の訓練データが不要

Home

Owlv2 Large Patch14 Finetuned

Developed by google

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの学習データなしにテキストクエリで画像中の物体を検出できます。

テキスト生成画像

Transformers

Open Source License:Apache-2.0 #ゼロショット物体検出 #オープン語彙認識 #マルチモーダル視覚モデル

Downloads 1,434

Release Time : 10/14/2023

Model Overview

OWLv2はCLIPバックボーンネットワークを基にしたゼロショットテキスト条件付き物体検出モデルで、1つ以上のテキストクエリを使って画像中の物体を検出します。ViT-L/14を視覚エンコーダーとして使用し、コントラスト損失で学習され、標準検出データセットでファインチューニングされています。

Model Features

ゼロショット検出能力

特定カテゴリの学習データが不要で、テキストクエリだけで画像中の物体を検出可能。

オープン語彙分類

固定分類層の重みをテキスト埋め込みに置き換えることで、任意のクラス名の検出をサポート。

マルチクエリ検出

1つ以上のテキストクエリを使用して、画像中の異なる物体を同時に検出可能。

Model Capabilities

テキスト条件付き物体検出

オープン語彙物体認識

マルチカテゴリ同時検出

Use Cases

コンピュータビジョン研究

ゼロショット物体検出研究

未学習カテゴリに対するモデルの検出能力を研究する用途。

学際的応用

特殊シーン物体認識

医療・産業など学習データ取得が困難な特殊分野での物体検出。

🚀 OWLv2モデルカード

OWLv2モデルは、ゼロショットのテキスト条件付き物体検出モデルです。このモデルを使用することで、1つまたは複数のテキストクエリを用いて画像内の物体を検出することができます。

🚀 クイックスタート

このセクションでは、Transformersライブラリを使ってOWLv2モデルを使用する基本的な手順を説明します。

import requests
from PIL import Image
import torch

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-large-patch14-finetuned")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-large-patch14-finetuned")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to COCO API
results = processor.post_process_object_detection(outputs=outputs, threshold=0.1, target_sizes=target_sizes)

i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

# Print detected objects and rescaled box coordinates
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

✨ 主な機能

OWLv2モデルは、ゼロショットのテキスト条件付き物体検出を可能にする多様な機能を備えています。

ゼロショット物体検出：事前に訓練されたクラスに限定されず、任意のテキストクエリを使用して物体を検出できます。
多モーダルバックボーン：CLIPをベースにした多モーダルバックボーンを使用して、画像とテキストの特徴を効果的に抽出します。
オープンボキャブラリ分類：固定された分類層の重みを、テキストモデルから取得したクラス名の埋め込みに置き換えることで、オープンボキャブラリ分類を可能にします。

📦 インストール

このモデルを使用するには、transformersライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install transformers

📚 ドキュメント

OWLv2論文

🔧 技術詳細

モデルの概要

OWLv2モデル（Open-World Localizationの略）は、Matthias Minderer、Alexey Gritsenko、Neil HoulsbyによるScaling Open-Vocabulary Object Detectionで提案されました。OWLv2は、OWL-ViTと同様に、ゼロショットのテキスト条件付き物体検出モデルで、1つまたは複数のテキストクエリを用いて画像をクエリすることができます。

モデルのアーキテクチャ

モデルは、CLIPをマルチモーダルバックボーンとして使用しています。画像エンコーダとしてViT-L/14 Transformerアーキテクチャを持つCLIPバックボーンを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用しています。これらのエンコーダは、対照的損失を通じて（画像、テキスト）ペアの類似性を最大化するように訓練されています。

モデルの訓練

CLIPバックボーンは、スクラッチから訓練され、物体検出の目的でボックスとクラス予測ヘッドと一緒に微調整されます。モデルは、公開されている画像キャプションデータと物体検出データセットを使用して訓練されています。

モデルの日付

2023年6月

モデルのタイプ

モデルは、CLIPバックボーンを使用し、画像エンコーダとしてViT-L/14 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用しています。

属性	详情
モデルタイプ	モデルは、CLIPバックボーンを使用し、画像エンコーダとしてViT-L/14 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用しています。
訓練データ	モデルのCLIPバックボーンは、公開されている画像キャプションデータで訓練されました。これは、いくつかのウェブサイトをクロールし、YFCC100Mなどの一般的に使用される既存の画像データセットを使用することで行われました。OWL-ViTの予測ヘッドは、COCOやOpenImagesなどの公開されている物体検出データセットで微調整されます。

属性

详情

モデルタイプ

訓練データ

モデルのCLIPバックボーンは、公開されている画像キャプションデータで訓練されました。これは、いくつかのウェブサイトをクロールし、YFCC100Mなどの一般的に使用される既存の画像データセットを使用することで行われました。OWL-ViTの予測ヘッドは、COCOやOpenImagesなどの公開されている物体検出データセットで微調整されます。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}