开源OWLv2-base-patch16-ensemble模型 - 零样本免费定位图像对象

首页

Owlv2 Base Patch16 Ensemble

由 google 开发

OWLv2是一种零样本文本条件目标检测模型，可通过文本查询在图像中定位对象。

文本生成图像

Transformers

开源协议:Apache-2.0 #零样本目标检测 #开放词汇定位 #CLIP骨干网络

下载量 932.80k

发布时间 : 10/13/2023

模型简介

OWLv2是基于CLIP的开放世界定位模型，支持通过文本查询进行零样本目标检测，无需特定类别的训练数据即可识别图像中的对象。

模型特点

零样本检测

无需特定类别的训练数据，仅通过文本描述即可检测图像中的对象

开放词汇

支持任意文本查询，不限于预定义的类别集合

多查询支持

可同时使用多个文本查询对图像进行检测

模型能力

图像目标检测

文本条件查询

开放词汇识别

使用案例

计算机视觉研究

零样本目标检测研究

用于研究模型在未见类别上的检测能力

跨学科应用

特殊对象识别

在需要识别训练数据中不常见对象的领域应用

🚀 模型卡片：OWLv2

OWLv2模型（开放世界定位的缩写）是一种零样本、文本条件的目标检测模型，可使用一个或多个文本查询来查询图像。该模型使用CLIP作为其多模态主干，通过ViT类Transformer获取视觉特征，通过因果语言模型获取文本特征。

✨ 主要特性

零样本检测：无需针对特定目标进行训练，即可根据文本查询检测图像中的目标。
多模态处理：结合视觉和文本特征，实现开放词汇的目标检测。
端到端训练：通过对比损失和二分匹配损失进行端到端训练，提高检测性能。

📦 安装指南

使用transformers库加载模型：

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-ensemble")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

💻 使用示例

基础用法

import requests
from PIL import Image
import torch

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-ensemble")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to Pascal VOC Format (xmin, ymin, xmax, ymax)
results = processor.post_process_object_detection(outputs=outputs, target_sizes=target_sizes, threshold=0.1)
i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

📚 详细文档

OWLv2论文

🔧 技术细节

模型架构

模型使用CLIP作为多模态主干，其中图像编码器采用ViT-B/16 Transformer架构，文本编码器采用掩码自注意力Transformer。这些编码器通过对比损失进行训练，以最大化（图像，文本）对的相似度。CLIP主干从零开始训练，并与边界框和类别预测头一起进行微调，以实现目标检测。

训练数据

CLIP主干：使用公开可用的图像 - 标题数据进行训练，包括从多个网站爬取的数据和常用的图像数据集，如YFCC100M。
微调数据：在公开可用的目标检测数据集上进行微调，如COCO和OpenImages。

📄 许可证

本模型采用Apache-2.0许可证。

引用信息

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

表格信息

属性	详情
模型类型	使用CLIP主干，图像编码器为ViT-B/16 Transformer架构，文本编码器为掩码自注意力Transformer
训练数据	CLIP主干使用公开图像 - 标题数据，微调使用COCO和OpenImages等目标检测数据集