O

Owlvit Base Patch32

由google開發
OWL-ViT是一個零樣本文本條件目標檢測模型,可以通過文本查詢搜索圖像中的對象,無需特定類別的訓練數據。
下載量 764.95k
發布時間 : 7/5/2022

模型概述

OWL-ViT採用CLIP作為多模態骨幹網絡,結合ViT風格的Transformer和輕量級預測頭,實現開放詞彙的目標檢測。它能夠通過文本描述直接檢測圖像中的對象,支持零樣本遷移。

模型特點

零樣本檢測能力
無需特定類別的訓練數據,直接通過文本描述檢測新類別對象
開放詞彙支持
可以處理訓練時未見過的類別名稱,實現開放世界的目標檢測
多模態架構
結合視覺Transformer和文本Transformer,實現圖像和文本的聯合理解

模型能力

零樣本目標檢測
文本條件圖像搜索
開放詞彙識別
多模態理解

使用案例

計算機視覺研究
零樣本目標檢測研究
研究模型在未見類別上的泛化能力
實際應用
圖像內容檢索
通過自然語言描述搜索圖像中的特定對象
智能監控
使用自然語言查詢檢測監控畫面中的特定目標
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase