OWL - ViT（owlvit - base - patch32）オープンソースモデル - ゼロショット無料検出、テキストで画像中のオブジェクトを検索！

ホーム

Owlvit Base Patch32

googleによって開発

OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット物体検出 #オープン語彙認識 #マルチモーダル視覚モデル

ダウンロード数 764.95k

リリース時間 : 7/5/2022

モデル概要

OWL-ViTはCLIPをマルチモーダルバックボーンとして採用し、ViTスタイルのTransformerと軽量な予測ヘッドを組み合わせ、オープン語彙の物体検出を実現します。テキスト記述で直接画像内のオブジェクトを検出でき、ゼロショット転移をサポートします。

モデル特徴

ゼロショット検出能力

特定カテゴリの訓練データ不要で、テキスト記述から直接新しいカテゴリのオブジェクトを検出

オープン語彙サポート

訓練時に未見のカテゴリ名を処理可能で、オープンワールドの物体検出を実現

マルチモーダルアーキテクチャ

視覚TransformerとテキストTransformerを統合し、画像とテキストの共同理解を実現

モデル能力

ゼロショット物体検出

テキスト条件付き画像検索

オープン語彙認識

マルチモーダル理解

使用事例

コンピュータビジョン研究

ゼロショット物体検出研究

未見カテゴリに対するモデルの汎化能力を研究

実用アプリケーション

画像コンテンツ検索

自然言語記述で画像内の特定オブジェクトを検索

インテリジェント監視

自然言語クエリで監視映像内の特定ターゲットを検出

🚀 モデルカード: OWL-ViT

OWL-ViT（Vision Transformer for Open-World Localizationの略）は、ゼロショットのテキスト条件付き物体検出モデルです。このモデルを使用することで、1つまたは複数のテキストクエリを使って画像を検索することができます。

🚀 クイックスタート

ライブラリのインポート

import requests
from PIL import Image
import torch

from transformers import OwlViTProcessor, OwlViTForObjectDetection

モデルの読み込み

processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32")
model = OwlViTForObjectDetection.from_pretrained("google/owlvit-base-patch32")

画像の取得と処理

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

結果の処理と表示

# ターゲット画像のサイズ（高さ、幅）を取得してボックス予測をリスケール
target_sizes = torch.Tensor([image.size[::-1]])
# 出力（バウンディングボックスとクラスロジット）をCOCO API形式に変換
results = processor.post_process_object_detection(outputs=outputs, threshold=0.1, target_sizes=target_sizes)

i = 0  # 最初の画像に対する予測結果を取得
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

# 検出された物体とリスケールされたボックス座標を表示
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

✨ 主な機能

OWL-ViTは、CLIPをマルチモーダルバックボーンとして使用し、ViTのようなTransformerで視覚特徴を取得し、因果言語モデルでテキスト特徴を取得します。検出にCLIPを使用するために、ビジョンモデルの最終トークンプーリング層を削除し、軽量な分類とボックスヘッドを各Transformer出力トークンに取り付けます。固定分類層の重みを、テキストモデルから取得したクラス名埋め込みで置き換えることで、オープンボキャブラリ分類が可能になります。

📦 インストール

このモデルを使用するには、transformersライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

import requests
from PIL import Image
import torch

from transformers import OwlViTProcessor, OwlViTForObjectDetection

processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32")
model = OwlViTForObjectDetection.from_pretrained("google/owlvit-base-patch32")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

target_sizes = torch.Tensor([image.size[::-1]])
results = processor.post_process_object_detection(outputs=outputs, threshold=0.1, target_sizes=target_sizes)

i = 0
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

📚 ドキュメント

OWL-ViT論文

🔧 技術詳細

モデルの日付

2022年5月

モデルのタイプ

このモデルは、ViT-B/32 Transformerアーキテクチャを持つCLIPバックボーンを画像エンコーダとして使用し、マスクされた自己注意Transformerをテキストエンコーダとして使用します。これらのエンコーダは、対照損失を通じて（画像、テキスト）ペアの類似度を最大化するように訓練されています。CLIPバックボーンは最初から訓練され、物体検出の目的でボックスとクラス予測ヘッドと一緒に微調整されます。

データ

モデルのCLIPバックボーンは、公開されている画像キャプションデータで訓練されています。これは、いくつかのウェブサイトをクローリングし、YFCC100Mなどの一般的に使用される既存の画像データセットを組み合わせて行われました。データの大部分はインターネットのクローリングから得られています。これは、データがインターネットに最も接続されている人々や社会をより代表していることを意味します。OWL-ViTの予測ヘッドは、CLIPバックボーンとともに、COCOやOpenImagesなどの公開されている物体検出データセットで微調整されています。

BibTeXエントリと引用情報

@article{minderer2022simple,
  title={Simple Open-Vocabulary Object Detection with Vision Transformers},
  author={Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby},
  journal={arXiv preprint arXiv:2205.06230},
  year={2022},
}