owlv2-large-patch14-ensembleオープンソースモデル - ゼロショットで無料でテキストクエリによる画像オブジェクトの検出を実現

ホーム

Owlv2 Large Patch14 Ensemble

Thomasboosingerによって開発

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検出できます。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット物体検出 #オープン語彙認識 #マルチモーダル視覚モデル

ダウンロード数 1

リリース時間 : 2/19/2024

モデル概要

OWLv2はCLIPバックボーンに基づくオープン語彙物体検出モデルで、トレーニングで見たことのないオブジェクトカテゴリをテキストクエリで検出できます。

モデル特徴

ゼロショット検出能力

特定カテゴリのトレーニングデータが不要で、テキスト記述だけで新しいカテゴリのオブジェクトを検出可能

オープン語彙

定義済みカテゴリセットに限定されず、任意のテキストクエリを検出カテゴリとしてサポート

マルチモーダルアーキテクチャ

視覚と言語モデルを統合し、画像とテキストの共同理解を実現

モデル能力

ゼロショット物体検出

画像理解

テキスト条件付き視覚検索

複数オブジェクト検出

使用事例

コンピュータビジョン研究

ゼロショット検出研究

未知カテゴリに対するモデルの汎化能力を研究するために使用

学際的応用

特殊オブジェクト認識

医療、農業などの分野でトレーニングデータに稀な特殊オブジェクトを識別

🚀 OWLv2モデルカード

OWLv2モデル（Open-World Localizationの略称）は、ゼロショットでテキスト条件付きの物体検出モデルです。このモデルを使うことで、1つまたは複数のテキストクエリを用いて画像を検索することができます。

🚀 クイックスタート

Transformersでの使用

import requests
from PIL import Image
import torch

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-large-patch14-ensemble")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-large-patch14-ensemble")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to COCO API
results = processor.post_process_object_detection(outputs=outputs, threshold=0.1, target_sizes=target_sizes)

i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

# Print detected objects and rescaled box coordinates
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

✨ 主な機能

OWLv2モデルは、CLIPをマルチモーダルバックボーンとして使用しています。画像エンコーダーにはViT-L/14 Transformerアーキテクチャを持つCLIPバックボーンを、テキストエンコーダーにはマスク自己注意Transformerを使用しています。これらのエンコーダーは、対照損失を通じて（画像、テキスト）ペアの類似度を最大化するように訓練されています。

📦 インストール

このモデルを使用するには、transformersライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

📚 ドキュメント

OWLv2論文

🔧 技術詳細

モデルの詳細

OWLv2モデル（Open-World Localizationの略称）は、Matthias Minderer、Alexey Gritsenko、Neil HoulsbyによるScaling Open-Vocabulary Object Detectionで提案されました。OWLv2は、OWL-ViTと同様に、ゼロショットでテキスト条件付きの物体検出モデルで、1つまたは複数のテキストクエリを用いて画像を検索することができます。

このモデルは、CLIPをマルチモーダルバックボーンとして使用しています。ViTのようなTransformerを使って視覚的特徴を取得し、因果言語モデルを使ってテキスト特徴を取得します。CLIPを検出に使用するために、OWL-ViTはビジョンモデルの最後のトークンプーリング層を削除し、各Transformer出力トークンに軽量な分類とボックスヘッドを付けます。固定分類層の重みを、テキストモデルから得られるクラス名埋め込みで置き換えることで、オープンボキャブラリ分類が可能になります。著者らはまず、CLIPをゼロから訓練し、二部マッチング損失を使用して標準的な検出データセット上で分類とボックスヘッドとともにエンドツーエンドで微調整します。画像ごとに1つまたは複数のテキストクエリを使用して、ゼロショットでテキスト条件付きの物体検出を行うことができます。

モデルの日付

2023年6月

モデルのタイプ

このモデルは、画像エンコーダーとしてViT-L/14 Transformerアーキテクチャを持つCLIPバックボーンを使用し、テキストエンコーダーとしてマスク自己注意Transformerを使用しています。これらのエンコーダーは、対照損失を通じて（画像、テキスト）ペアの類似度を最大化するように訓練されています。CLIPバックボーンはゼロから訓練され、物体検出の目的でボックスとクラス予測ヘッドと一緒に微調整されています。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

📦 データ

モデルのCLIPバックボーンは、公開されている画像キャプションデータで訓練されています。これは、いくつかのウェブサイトをクロールし、YFCC100Mなどの一般的に使用される既存の画像データセットを組み合わせて行われました。データの大部分は、インターネットのクロールから得られています。これは、データがインターネットに最も接続されている人々と社会をより代表していることを意味します。OWL-ViTの予測ヘッドは、CLIPバックボーンとともに、COCOやOpenImagesなどの公開されている物体検出データセットで微調整されています。

（v2については更新予定）

📚 モデルの使用

意図された使用方法

このモデルは、研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショットでテキスト条件付きの物体検出をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究、特に訓練時にラベルが利用できない物体を識別する必要がある分野での研究にも役立つことを期待しています。