オープンソースのowlv2 - base - patch16モデル - ゼロショットで無料で画像物体検出と位置特定を実現

ホーム

Owlv2 Base Patch16

vvmnnnkvによって開発

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出・位置特定できます。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット物体検出 #オープン語彙認識 #テキスト条件付き検出

ダウンロード数 26

リリース時間 : 10/27/2023

モデル概要

OWLv2はCLIPバックボーンを基にしたオープン語彙物体検出モデルで、特定のカテゴリに対する訓練なしにテキストクエリによるゼロショット物体検出が可能です。

モデル特徴

ゼロショット検出能力

特定カテゴリの訓練不要で、テキストクエリにより新規カテゴリ物体を直接検出可能

オープン語彙認識

訓練時に未見のカテゴリ名を認識可能で、従来の検出モデルのカテゴリ制限を突破

マルチクエリ対応

複数のテキストクエリを同時使用した物体検出をサポートし、検出効率を向上

モデル能力

画像物体検出

テキスト条件付き位置特定

オープン語彙認識

使用事例

コンピュータビジョン研究

ゼロショット物体検出研究

コンピュータビジョンモデルの頑健性、汎化能力などの特性研究に使用

実用アプリケーション

シーン物体認識

空港や草原など未知環境での特定物体の迅速な識別

🚀 OWLv2モデルカード

OWLv2モデル（Open-World Localizationの略）は、画像認識や物体検出に特化したゼロショットのテキスト条件付き物体検出モデルです。このモデルを使うことで、1つまたは複数のテキストクエリを用いて画像内の物体を検出できます。

🚀 クイックスタート

ライブデモ

以下のサンプル画像を使って、モデルの動作を試すことができます。

Transformersを使った使用方法

import requests
from PIL import Image
import torch

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to COCO API
results = processor.post_process_object_detection(outputs=outputs, threshold=0.1, target_sizes=target_sizes)

i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

# Print detected objects and rescaled box coordinates
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

✨ 主な機能

ゼロショット物体検出：学習時に見たことのない物体に対しても、テキストクエリを使って検出できます。
複数のテキストクエリ対応：1つの画像に対して複数のテキストクエリを使って物体を検出できます。

📚 ドキュメント

OWLv2論文

🔧 技術詳細

モデル概要

OWLv2モデルは、Matthias Minderer, Alexey Gritsenko, Neil HoulsbyによってScaling Open-Vocabulary Object Detectionで提案されました。このモデルは、OWL-ViTと同様に、ゼロショットのテキスト条件付き物体検出モデルで、1つまたは複数のテキストクエリを用いて画像をクエリできます。

モデル構造

モデルは、CLIPをマルチモーダルバックボーンとして使用しています。画像特徴を取得するためにViTのようなTransformerを、テキスト特徴を取得するために因果言語モデルを使用しています。CLIPを検出に使用するために、OWL-ViTはビジョンモデルの最後のトークンプーリング層を削除し、各Transformer出力トークンに軽量な分類とボックスヘッドを付けています。固定分類層の重みを、テキストモデルから取得したクラス名の埋め込みに置き換えることで、オープンボキャブラリ分類が可能になります。著者らはまずCLIPをゼロから学習させ、二部マッチング損失を使用して標準的な検出データセット上で分類とボックスヘッドとともにエンドツーエンドで微調整しています。1枚の画像に対して1つまたは複数のテキストクエリを使用して、ゼロショットのテキスト条件付き物体検出を行うことができます。

モデルの日付

2023年6月

モデルタイプ

モデルは、画像エンコーダとしてViT-B/16 Transformerアーキテクチャを持つCLIPバックボーンを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用しています。これらのエンコーダは、対照的損失を介して（画像、テキスト）ペアの類似性を最大化するように学習されています。CLIPバックボーンはゼロから学習され、物体検出の目的でボックスとクラス予測ヘッドと一緒に微調整されています。

属性	详情
モデルタイプ	画像エンコーダとしてViT-B/16 Transformerアーキテクチャを持つCLIPバックボーンを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用しています。
学習データ	CLIPバックボーンは公開されている画像キャプションデータで学習され、OWL-ViTの予測ヘッドはCOCOやOpenImagesなどの公開されている物体検出データセットで微調整されています。

📦 データ

モデルのCLIPバックボーンは、公開されている画像キャプションデータで学習されました。これは、いくつかのウェブサイトをクロールし、YFCC100Mなどの一般的に使用されている既存の画像データセットを組み合わせることで行われました。データの大部分はインターネットのクロールから得られています。これは、データがインターネットに最も接続されている人々や社会をより代表していることを意味します。OWL-ViTの予測ヘッドは、CLIPバックボーンとともに、COCOやOpenImagesなどの公開されている物体検出データセットで微調整されています。

（v2用に更新予定）

BibTeXエントリと引用情報

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}