O

Owlvit Large Patch14

由google開發
OWL-ViT是一個零樣本文本條件目標檢測模型,可通過文本查詢檢索圖像中的對象。
下載量 25.01k
發布時間 : 7/5/2022

模型概述

OWL-ViT使用CLIP作為多模態骨幹網絡,結合視覺變換器和文本編碼器,實現開放詞彙的目標檢測。

模型特點

零樣本檢測能力
無需特定類別訓練即可檢測新對象,僅需文本描述即可執行檢測任務
多模態架構
結合視覺變換器和文本編碼器,實現圖像與文本的聯合理解
開放詞彙分類
通過動態替換分類層權重支持任意文本描述的類別識別

模型能力

文本條件目標檢測
開放詞彙對象識別
多模態圖像理解

使用案例

計算機視覺研究
零樣本目標檢測研究
探索模型在未見類別上的檢測能力
跨學科應用
特殊對象識別
在醫療、工業等領域識別訓練數據中罕見的對象
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase