開源OWLv2-base-patch16-ensemble模型 - 零樣本免費定位圖像對象

首頁

Owlv2 Base Patch16 Ensemble

由google開發

OWLv2是一種零樣本文本條件目標檢測模型，可通過文本查詢在圖像中定位對象。

文本生成圖像

Transformers

開源協議:Apache-2.0 #零樣本目標檢測 #開放詞彙定位 #CLIP骨幹網絡

下載量 932.80k

發布時間 : 10/13/2023

模型概述

OWLv2是基於CLIP的開放世界定位模型，支持通過文本查詢進行零樣本目標檢測，無需特定類別的訓練數據即可識別圖像中的對象。

模型特點

零樣本檢測

無需特定類別的訓練數據，僅通過文本描述即可檢測圖像中的對象

開放詞彙

支持任意文本查詢，不限於預定義的類別集合

多查詢支持

可同時使用多個文本查詢對圖像進行檢測

模型能力

圖像目標檢測

文本條件查詢

開放詞彙識別

使用案例

計算機視覺研究

零樣本目標檢測研究

用於研究模型在未見類別上的檢測能力

跨學科應用

特殊對象識別

在需要識別訓練數據中不常見對象的領域應用

🚀 模型卡片：OWLv2

OWLv2模型（開放世界定位的縮寫）是一種零樣本、文本條件的目標檢測模型，可使用一個或多個文本查詢來查詢圖像。該模型使用CLIP作為其多模態主幹，通過ViT類Transformer獲取視覺特徵，通過因果語言模型獲取文本特徵。

✨ 主要特性

零樣本檢測：無需針對特定目標進行訓練，即可根據文本查詢檢測圖像中的目標。
多模態處理：結合視覺和文本特徵，實現開放詞彙的目標檢測。
端到端訓練：通過對比損失和二分匹配損失進行端到端訓練，提高檢測性能。

📦 安裝指南

使用transformers庫加載模型：

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-ensemble")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

💻 使用示例

基礎用法

import requests
from PIL import Image
import torch

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-ensemble")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to Pascal VOC Format (xmin, ymin, xmax, ymax)
results = processor.post_process_object_detection(outputs=outputs, target_sizes=target_sizes, threshold=0.1)
i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

📚 詳細文檔

OWLv2論文

🔧 技術細節

模型架構

模型使用CLIP作為多模態主幹，其中圖像編碼器採用ViT-B/16 Transformer架構，文本編碼器採用掩碼自注意力Transformer。這些編碼器通過對比損失進行訓練，以最大化（圖像，文本）對的相似度。CLIP主幹從零開始訓練，並與邊界框和類別預測頭一起進行微調，以實現目標檢測。

訓練數據

CLIP主幹：使用公開可用的圖像 - 標題數據進行訓練，包括從多個網站爬取的數據和常用的圖像數據集，如YFCC100M。
微調數據：在公開可用的目標檢測數據集上進行微調，如COCO和OpenImages。

📄 許可證

本模型採用Apache-2.0許可證。

引用信息

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

表格信息

屬性	詳情
模型類型	使用CLIP主幹，圖像編碼器為ViT-B/16 Transformer架構，文本編碼器為掩碼自注意力Transformer
訓練數據	CLIP主幹使用公開圖像 - 標題數據，微調使用COCO和OpenImages等目標檢測數據集