OWL-ViT（owlvit-base-patch32）開源模型 - 零樣本免費檢測，按文本搜圖中對象！

首頁

Owlvit Base Patch32

由google開發

OWL-ViT是一個零樣本文本條件目標檢測模型，可以通過文本查詢搜索圖像中的對象，無需特定類別的訓練數據。

文本生成圖像

Transformers

開源協議:Apache-2.0 #零樣本目標檢測 #開放詞彙識別 #多模態視覺模型

下載量 764.95k

發布時間 : 7/5/2022

模型概述

OWL-ViT採用CLIP作為多模態骨幹網絡，結合ViT風格的Transformer和輕量級預測頭，實現開放詞彙的目標檢測。它能夠通過文本描述直接檢測圖像中的對象，支持零樣本遷移。

模型特點

零樣本檢測能力

無需特定類別的訓練數據，直接通過文本描述檢測新類別對象

開放詞彙支持

可以處理訓練時未見過的類別名稱，實現開放世界的目標檢測

多模態架構

結合視覺Transformer和文本Transformer，實現圖像和文本的聯合理解

模型能力

零樣本目標檢測

文本條件圖像搜索

開放詞彙識別

多模態理解

使用案例

計算機視覺研究

零樣本目標檢測研究

研究模型在未見類別上的泛化能力

實際應用

圖像內容檢索

通過自然語言描述搜索圖像中的特定對象

智能監控

使用自然語言查詢檢測監控畫面中的特定目標

🚀 模型卡片：OWL - ViT

OWL - ViT（開放世界定位視覺變換器的縮寫）是一種零樣本的文本條件目標檢測模型，能夠使用一個或多個文本查詢對圖像進行查詢。該模型為研究界提供了研究零樣本目標檢測的工具，有助於研究人員更好地理解和探索相關領域。

🚀 快速開始

若要使用OWL - ViT模型進行目標檢測，可參考以下代碼示例：

import requests
from PIL import Image
import torch

from transformers import OwlViTProcessor, OwlViTForObjectDetection

processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32")
model = OwlViTForObjectDetection.from_pretrained("google/owlvit-base-patch32")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to COCO API
results = processor.post_process_object_detection(outputs=outputs, threshold=0.1, target_sizes=target_sizes)

i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

# Print detected objects and rescaled box coordinates
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

✨ 主要特性

零樣本目標檢測：可以使用文本查詢對圖像進行目標檢測，無需針對特定目標進行訓練。
多模態架構：使用CLIP作為多模態骨幹網絡，結合視覺變換器獲取視覺特徵，使用因果語言模型獲取文本特徵。

📚 詳細文檔

OWL - ViT論文

🔧 技術細節

模型詳情

OWL - ViT由Matthias Minderer等人在Simple Open - Vocabulary Object Detection with Vision Transformers中提出。該模型使用CLIP作為多模態骨幹網絡，其中視覺模型採用類似ViT - B/32的變換器架構獲取視覺特徵，文本模型使用掩碼自注意力變換器獲取文本特徵。為了將CLIP用於檢測任務，OWL - ViT移除了視覺模型的最終令牌池化層，併為每個變換器輸出令牌附加了輕量級的分類和邊界框預測頭。通過將固定的分類層權重替換為從文本模型獲得的類名嵌入，實現了開放詞彙分類。作者首先從頭開始訓練CLIP，然後在標準檢測數據集上使用二分匹配損失對分類和邊界框預測頭進行端到端的微調。

模型日期

2022年5月

模型類型

該模型使用CLIP骨幹網絡，其中圖像編碼器採用ViT - B/32變換器架構，文本編碼器使用掩碼自注意力變換器。這些編碼器通過對比損失進行訓練，以最大化（圖像，文本）對的相似度。CLIP骨幹網絡從頭開始訓練，並與邊界框和類別預測頭一起針對目標檢測任務進行微調。

數據

模型的CLIP骨幹網絡在公開可用的圖像 - 字幕數據上進行訓練。這些數據通過爬取一些網站和使用常用的現有圖像數據集（如YFCC100M）組合而成。大部分數據來自互聯網爬取，這意味著數據更能代表與互聯網連接最緊密的人群和社會。OWL - ViT的預測頭與CLIP骨幹網絡一起在公開可用的目標檢測數據集（如COCO和OpenImages）上進行微調。

BibTeX引用

@article{minderer2022simple,
  title={Simple Open-Vocabulary Object Detection with Vision Transformers},
  author={Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby},
  journal={arXiv preprint arXiv:2205.06230},
  year={2022},
}

📦 模型使用

預期用途

該模型旨在作為研究界的研究成果。我們希望該模型能使研究人員更好地理解和探索零樣本、文本條件目標檢測。我們也希望它能用於跨學科研究，特別是在那些通常需要識別訓練期間標籤不可用的對象的領域。

主要預期用戶

這些模型的主要預期用戶是AI研究人員。

我們主要設想研究人員將使用該模型來更好地理解計算機視覺模型的魯棒性、泛化能力以及其他能力、偏差和限制。

📄 許可證

本模型採用Apache - 2.0許可證。

屬性	詳情
模型類型	該模型使用CLIP骨幹網絡，圖像編碼器採用ViT - B/32變換器架構，文本編碼器使用掩碼自注意力變換器，通過對比損失最大化（圖像，文本）對的相似度，並針對目標檢測任務進行微調。
訓練數據	模型的CLIP骨幹網絡在公開可用的圖像 - 字幕數據上訓練，數據來自爬取網站和常用圖像數據集（如YFCC100M）；預測頭與CLIP骨幹網絡一起在公開目標檢測數據集（如COCO和OpenImages）上微調。