owlv2-large-patch14-ensemble開源模型 - 零樣本免費實現文本查詢檢測圖像對象

首頁

Owlv2 Large Patch14 Ensemble

由Thomasboosinger開發

OWLv2是一種零樣本文本條件目標檢測模型，可通過文本查詢檢測圖像中的對象。

文本生成圖像

Transformers

開源協議:Apache-2.0 #零樣本目標檢測 #開放詞彙識別 #多模態視覺模型

下載量 1

發布時間 : 2/19/2024

模型概述

OWLv2是基於CLIP主幹網絡的開放詞彙目標檢測模型，能夠通過文本查詢在圖像中檢測未在訓練中見過的對象類別。

模型特點

零樣本檢測能力

無需特定類別的訓練數據，僅通過文本描述即可檢測新類別對象

開放詞彙表

支持任意文本查詢作為檢測類別，不限於預定義的類別集合

多模態架構

結合視覺和語言模型，實現圖像與文本的聯合理解

模型能力

零樣本目標檢測

圖像理解

文本條件視覺搜索

多對象檢測

使用案例

計算機視覺研究

零樣本檢測研究

用於研究模型在未見類別上的泛化能力

跨學科應用

特殊對象識別

在醫療、農業等領域識別訓練數據中不常見的特殊對象

🚀 模型卡片：OWLv2

OWLv2模型（開放世界定位的縮寫）是一個零樣本的文本條件目標檢測模型，能夠使用一個或多個文本查詢來查詢圖像。該模型使用CLIP作為其多模態主幹，結合視覺和文本特徵，實現開放詞彙的目標檢測。

📚 詳細文檔

模型詳情

OWLv2模型（開放世界定位的縮寫）由Matthias Minderer、Alexey Gritsenko、Neil Houlsby在論文Scaling Open-Vocabulary Object Detection中提出。與OWL - ViT一樣，OWLv2是一個零樣本的文本條件目標檢測模型，可使用一個或多個文本查詢來查詢圖像。

該模型使用CLIP作為其多模態主幹，利用類似ViT的Transformer獲取視覺特徵，使用因果語言模型獲取文本特徵。為了將CLIP用於檢測任務，OWL - ViT移除了視覺模型的最終標記池化層，併為每個Transformer輸出標記附加了一個輕量級的分類和邊界框預測頭。通過用從文本模型獲得的類名嵌入替換固定的分類層權重，實現了開放詞彙分類。作者首先從頭開始訓練CLIP，然後在標準檢測數據集上使用二分匹配損失對分類和邊界框預測頭進行端到端的微調。每張圖像可以使用一個或多個文本查詢來執行零樣本的文本條件目標檢測。

模型日期

2023年6月

模型類型

屬性	詳情
模型類型	該模型使用具有ViT - L/14 Transformer架構的CLIP主幹作為圖像編碼器，並使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練，以最大化（圖像，文本）對的相似度。CLIP主幹從頭開始訓練，並與邊界框和類別預測頭一起針對目標檢測任務進行微調。
訓練數據	模型的CLIP主幹在公開可用的圖像 - 標題數據上進行訓練，通過抓取一些網站和使用常用的現有圖像數據集（如YFCC100M）完成。大部分數據來自互聯網抓取，這意味著數據更能代表與互聯網連接最緊密的人群和社會。OWL - ViT的預測頭與CLIP主幹一起在公開可用的目標檢測數據集（如COCO和OpenImages）上進行微調。

屬性

詳情

模型類型

該模型使用具有ViT - L/14 Transformer架構的CLIP主幹作為圖像編碼器，並使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練，以最大化（圖像，文本）對的相似度。CLIP主幹從頭開始訓練，並與邊界框和類別預測頭一起針對目標檢測任務進行微調。

訓練數據

模型的CLIP主幹在公開可用的圖像 - 標題數據上進行訓練，通過抓取一些網站和使用常用的現有圖像數據集（如YFCC100M）完成。大部分數據來自互聯網抓取，這意味著數據更能代表與互聯網連接最緊密的人群和社會。OWL - ViT的預測頭與CLIP主幹一起在公開可用的目標檢測數據集（如COCO和OpenImages）上進行微調。

使用Transformers庫調用模型

import requests
from PIL import Image
import torch

from transformers import Owlv2Processor, Owlv2ForObjectDetection

processor = Owlv2Processor.from_pretrained("google/owlv2-large-patch14-ensemble")
model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-large-patch14-ensemble")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
texts = [["a photo of a cat", "a photo of a dog"]]
inputs = processor(text=texts, images=image, return_tensors="pt")
outputs = model(**inputs)

# Target image sizes (height, width) to rescale box predictions [batch_size, 2]
target_sizes = torch.Tensor([image.size[::-1]])
# Convert outputs (bounding boxes and class logits) to COCO API
results = processor.post_process_object_detection(outputs=outputs, threshold=0.1, target_sizes=target_sizes)

i = 0  # Retrieve predictions for the first image for the corresponding text queries
text = texts[i]
boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]

# Print detected objects and rescaled box coordinates
for box, score, label in zip(boxes, scores, labels):
    box = [round(i, 2) for i in box.tolist()]
    print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")

🛠️ 模型使用

預期用途

該模型是為研究社區提供的研究成果。我們希望這個模型能讓研究人員更好地理解和探索零樣本、文本條件目標檢測。我們也希望它能用於跨學科研究，探討此類模型的潛在影響，特別是在那些通常需要識別訓練期間標籤不可用的對象的領域。

主要預期用途

這些模型的主要預期用戶是AI研究人員。

我們主要設想研究人員將使用該模型來更好地理解計算機視覺模型的魯棒性、泛化能力以及其他特性、偏差和侷限性。

BibTeX引用信息

@misc{minderer2023scaling,
      title={Scaling Open-Vocabulary Object Detection}, 
      author={Matthias Minderer and Alexey Gritsenko and Neil Houlsby},
      year={2023},
      eprint={2306.09683},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}