🚀 モデルカード: OWLv2
OWLv2モデルは、ゼロショットのテキスト条件付き物体検出モデルです。このモデルを使用すると、1つまたは複数のテキストクエリを用いて画像内の物体を検出できます。
🚀 クイックスタート
モデルの概要
OWLv2モデル(Open-World Localizationの略)は、Matthias Minderer、Alexey Gritsenko、Neil Houlsbyによる Scaling Open-Vocabulary Object Detection で提案されました。OWLv2は、OWL-ViTと同様に、ゼロショットのテキスト条件付き物体検出モデルで、1つまたは複数のテキストクエリを使って画像をクエリすることができます。
このモデルは、CLIPをマルチモーダルバックボーンとして使用しています。ViTのようなTransformerを使って視覚的特徴を取得し、因果言語モデルを使ってテキスト特徴を取得します。CLIPを検出に使用するために、OWL-ViTはビジョンモデルの最後のトークンプーリング層を削除し、各Transformer出力トークンに軽量の分類とボックスヘッドを取り付けます。固定分類層の重みを、テキストモデルから取得したクラス名の埋め込みに置き換えることで、オープンボキャブラリ分類が可能になります。著者らはまず、CLIPをゼロから学習させ、二部マッチング損失を使用して標準的な検出データセット上で分類とボックスヘッドとともにエンドツーエンドで微調整します。画像ごとに1つまたは複数のテキストクエリを使用して、ゼロショットのテキスト条件付き物体検出を行うことができます。
モデルの日付
2023年6月
モデルのタイプ
このモデルは、ViT-L/14 Transformerアーキテクチャを持つCLIPバックボーンを画像エンコーダとして使用し、マスク自己注意Transformerをテキストエンコーダとして使用します。これらのエンコーダは、対照損失を通じて(画像、テキスト)ペアの類似度を最大化するように学習されます。CLIPバックボーンはゼロから学習され、物体検出の目的でボックスとクラス予測ヘッドとともに微調整されます。
ドキュメント
Transformersを使用した利用方法
import requests
from PIL import Image
import torch
from transformers import Owlv2Processor, Owlv2ForObjectDetection
processor = Owlv2Processor.from_pretrained("google/owlv2-large-patch14-ensemble")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-large-patch14-ensemble")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
target_sizes = torch.Tensor([image.size[::-1]])
results = processor.post_process_object_detection(outputs=outputs, target_sizes=target_sizes, threshold=0.1)
i = 0
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]
for box, score, label in zip(boxes, scores, labels):
box = [round(i, 2) for i in box.tolist()]
print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")
📚 モデルの利用
意図された用途
このモデルは、研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショットのテキスト条件付き物体検出をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。
主な意図された用途
これらのモデルの主な意図されたユーザーは、AI研究者です。
主に、研究者がコンピュータビジョンモデルのロバスト性、汎化能力、その他の能力、バイアス、制約をよりよく理解するためにこのモデルを使用することを想定しています。
📦 データ
このモデルのCLIPバックボーンは、公開されている画像キャプションデータで学習されました。これは、いくつかのウェブサイトをクロールし、YFCC100M などの一般的に使用される既存の画像データセットを組み合わせることで行われました。データの大部分は、インターネットのクロールから得られています。これは、データがインターネットに最も接続されている人々と社会をより代表していることを意味します。OWL-ViTの予測ヘッドは、CLIPバックボーンとともに、COCO や OpenImages などの公開されている物体検出データセットで微調整されます。
(v2用に更新予定)
BibTeXエントリと引用情報
@misc{minderer2023scaling,
title={Scaling Open-Vocabulary Object Detection},
author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
year={2023},
eprint={2306.09683},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で公開されています。