OWL-ViT（owlvit-base-patch32）开源模型 - 零样本免费检测，按文本搜图中对象！

首页

Owlvit Base Patch32

由 google 开发

OWL-ViT是一个零样本文本条件目标检测模型，可以通过文本查询搜索图像中的对象，无需特定类别的训练数据。

文本生成图像

Transformers

开源协议:Apache-2.0 #零样本目标检测 #开放词汇识别 #多模态视觉模型

下载量 764.95k

发布时间 : 7/5/2022

模型简介

OWL-ViT采用CLIP作为多模态骨干网络，结合ViT风格的Transformer和轻量级预测头，实现开放词汇的目标检测。它能够通过文本描述直接检测图像中的对象，支持零样本迁移。

模型特点

零样本检测能力

无需特定类别的训练数据，直接通过文本描述检测新类别对象

开放词汇支持

可以处理训练时未见过的类别名称，实现开放世界的目标检测

多模态架构

结合视觉Transformer和文本Transformer，实现图像和文本的联合理解

模型能力

零样本目标检测

文本条件图像搜索

开放词汇识别

多模态理解

使用案例

计算机视觉研究

零样本目标检测研究

研究模型在未见类别上的泛化能力

实际应用

图像内容检索

通过自然语言描述搜索图像中的特定对象

智能监控

使用自然语言查询检测监控画面中的特定目标

🚀 模型卡片：OWL - ViT

OWL - ViT（开放世界定位视觉变换器的缩写）是一种零样本的文本条件目标检测模型，能够使用一个或多个文本查询对图像进行查询。该模型为研究界提供了研究零样本目标检测的工具，有助于研究人员更好地理解和探索相关领域。

🚀 快速开始

若要使用OWL - ViT模型进行目标检测，可参考以下代码示例：

import requests
from PIL import Image
import torch

from transformers import OwlViTProcessor, OwlViTForObjectDetection

processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32")
model = OwlViTForObjectDetection.from_pretrained("google/owlvit-base-patch32")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to COCO API
results = processor.post_process_object_detection(outputs=outputs, threshold=0.1, target_sizes=target_sizes)

i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

# Print detected objects and rescaled box coordinates
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

✨ 主要特性

零样本目标检测：可以使用文本查询对图像进行目标检测，无需针对特定目标进行训练。
多模态架构：使用CLIP作为多模态骨干网络，结合视觉变换器获取视觉特征，使用因果语言模型获取文本特征。

📚 详细文档

OWL - ViT论文

🔧 技术细节

模型详情

OWL - ViT由Matthias Minderer等人在Simple Open - Vocabulary Object Detection with Vision Transformers中提出。该模型使用CLIP作为多模态骨干网络，其中视觉模型采用类似ViT - B/32的变换器架构获取视觉特征，文本模型使用掩码自注意力变换器获取文本特征。为了将CLIP用于检测任务，OWL - ViT移除了视觉模型的最终令牌池化层，并为每个变换器输出令牌附加了轻量级的分类和边界框预测头。通过将固定的分类层权重替换为从文本模型获得的类名嵌入，实现了开放词汇分类。作者首先从头开始训练CLIP，然后在标准检测数据集上使用二分匹配损失对分类和边界框预测头进行端到端的微调。

模型日期

2022年5月

模型类型

该模型使用CLIP骨干网络，其中图像编码器采用ViT - B/32变换器架构，文本编码器使用掩码自注意力变换器。这些编码器通过对比损失进行训练，以最大化（图像，文本）对的相似度。CLIP骨干网络从头开始训练，并与边界框和类别预测头一起针对目标检测任务进行微调。

数据

模型的CLIP骨干网络在公开可用的图像 - 字幕数据上进行训练。这些数据通过爬取一些网站和使用常用的现有图像数据集（如YFCC100M）组合而成。大部分数据来自互联网爬取，这意味着数据更能代表与互联网连接最紧密的人群和社会。OWL - ViT的预测头与CLIP骨干网络一起在公开可用的目标检测数据集（如COCO和OpenImages）上进行微调。

BibTeX引用

@article{minderer2022simple,
  title={Simple Open-Vocabulary Object Detection with Vision Transformers},
  author={Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby},
  journal={arXiv preprint arXiv:2205.06230},
  year={2022},
}

📦 模型使用

预期用途

该模型旨在作为研究界的研究成果。我们希望该模型能使研究人员更好地理解和探索零样本、文本条件目标检测。我们也希望它能用于跨学科研究，特别是在那些通常需要识别训练期间标签不可用的对象的领域。

主要预期用户

这些模型的主要预期用户是AI研究人员。

我们主要设想研究人员将使用该模型来更好地理解计算机视觉模型的鲁棒性、泛化能力以及其他能力、偏差和限制。

📄 许可证

本模型采用Apache - 2.0许可证。

属性	详情
模型类型	该模型使用CLIP骨干网络，图像编码器采用ViT - B/32变换器架构，文本编码器使用掩码自注意力变换器，通过对比损失最大化（图像，文本）对的相似度，并针对目标检测任务进行微调。
训练数据	模型的CLIP骨干网络在公开可用的图像 - 字幕数据上训练，数据来自爬取网站和常用图像数据集（如YFCC100M）；预测头与CLIP骨干网络一起在公开目标检测数据集（如COCO和OpenImages）上微调。