开源OWLv2-base-patch16-finetuned模型 - 零样本支持文本查图像对象

首页

Owlv2 Base Patch16 Finetuned

由 google 开发

OWLv2是一个零样本文本条件目标检测模型，可通过文本查询检索图像中的对象。

目标检测

Transformers

开源协议:Apache-2.0 #零样本目标检测 #开放词汇识别 #多模态视觉模型

下载量 2,698

发布时间 : 10/13/2023

模型简介

OWLv2是基于CLIP骨干网络的开放世界定位模型，能够通过文本查询在图像中检测对象，无需特定类别的训练数据。

模型特点

零样本检测能力

无需特定类别的训练数据，可直接通过文本查询检测新类别对象

开放词汇识别

能够识别训练数据中未出现的类别名称

多查询检测

支持同时使用多个文本查询进行对象检测

模型能力

图像中的对象检测

文本条件目标定位

开放词汇识别

零样本学习

使用案例

计算机视觉研究

零样本目标检测研究

用于研究模型在未见类别上的检测能力

跨学科应用

特殊领域对象识别

在医疗、农业等专业领域识别训练数据中罕见的对象

🚀 模型卡片：OWLv2

OWLv2模型（开放世界定位的缩写）是一种零样本、文本条件的目标检测模型，可使用一个或多个文本查询来查询图像。该模型以CLIP作为多模态主干，结合视觉和文本特征进行目标检测。

✨ 主要特性

零样本目标检测：能够使用文本查询在图像中检测目标，无需针对特定类别进行训练。
多模态主干：采用CLIP作为多模态主干，结合视觉和文本特征。
开放词汇分类：通过替换固定分类层权重，实现开放词汇分类。

📦 安装指南

此文档未提及安装步骤，若需使用transformers库调用该模型，可使用以下命令安装：

pip install transformers

💻 使用示例

基础用法

import requests
from PIL import Image
import torch

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-finetuned")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-finetuned")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to Pascal VOC Format (xmin, ymin, xmax, ymax)
results = processor.post_process_object_detection(outputs=outputs, target_sizes=target_sizes, threshold=0.1)
i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

📚 详细文档

OWLv2论文

🔧 技术细节

模型详情

OWLv2模型（开放世界定位的缩写）由Matthias Minderer、Alexey Gritsenko、Neil Houlsby在Scaling Open-Vocabulary Object Detection中提出。与OWL-ViT一样，OWLv2是一种零样本、文本条件的目标检测模型，可使用一个或多个文本查询来查询图像。

该模型使用CLIP作为其多模态主干，使用类似ViT的Transformer获取视觉特征，并使用因果语言模型获取文本特征。为了将CLIP用于检测，OWL-ViT移除了视觉模型的最终标记池化层，并将轻量级分类和边界框头附加到每个Transformer输出标记上。通过用从文本模型获得的类名嵌入替换固定分类层权重，实现了开放词汇分类。作者首先从头开始训练CLIP，并使用二分匹配损失在标准检测数据集上对分类和边界框头进行端到端微调。每张图像可以使用一个或多个文本查询来执行零样本、文本条件的目标检测。

模型日期

2023年6月

模型类型

该模型使用带有ViT-B/16 Transformer架构的CLIP主干作为图像编码器，并使用掩码自注意力Transformer作为文本编码器。这些编码器经过训练，通过对比损失最大化（图像，文本）对的相似度。CLIP主干从头开始训练，并与边界框和类别预测头一起针对目标检测目标进行微调。

📄 许可证

本项目采用Apache-2.0许可证。

BibTeX引用

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

模型使用

预期用途

该模型旨在作为研究成果供研究社区使用。我们希望该模型能使研究人员更好地理解和探索零样本、文本条件的目标检测。我们还希望它可用于跨学科研究此类模型的潜在影响，特别是在通常需要识别训练期间标签不可用的对象的领域。

主要预期用户

这些模型的主要预期用户是AI研究人员。

我们主要设想研究人员将使用该模型来更好地理解计算机视觉模型的鲁棒性、泛化性和其他能力、偏差和限制。

数据

该模型的CLIP主干在公开可用的图像-标题数据上进行训练。这是通过抓取一些网站并使用常用的现有图像数据集（如YFCC100M）来完成的。大部分数据来自我们对互联网的抓取。这意味着数据更能代表与互联网连接最紧密的人群和社会。OWL-ViT的预测头与CLIP主干一起在公开可用的目标检测数据集（如COCO和OpenImages）上进行微调。

（v2版本待更新）