OWLv2-base-patch16開源視覺語言模型 - 免費實現對象檢測與定位

首頁

Owlv2 Base Patch16

由Xenova開發

OWLv2是一個基於視覺語言預訓練的模型，專注於對象檢測和定位任務。

目標檢測

Transformers

#零樣本目標檢測 #ONNX網頁端適配 #多模態視覺理解

下載量 17

發布時間 : 2/9/2024

模型概述

OWLv2是一個高效的視覺語言模型，能夠通過文本描述檢測和定位圖像中的對象。

模型特點

高效的視覺語言預訓練

通過結合視覺和語言信息，模型能夠理解複雜的對象描述。

基於Transformer架構

利用Transformer的強大能力處理視覺和語言數據。

ONNX格式支持

模型已轉換為ONNX格式，便於在Web端部署和使用。

模型能力

文本驅動的對象檢測

圖像中的對象定位

多模態理解

使用案例

計算機視覺

智能圖像搜索

通過文本描述搜索圖像中的特定對象。

提高搜索準確性和效率

自動化標註

自動為圖像中的對象生成標註。

減少人工標註成本

屬性	詳情
基礎模型	google/owlv2-base-patch16
庫名稱	transformers.js

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Owlv2 Base Patch16

模型概述

模型特點

模型能力

使用案例

🚀 基於ONNX權重適配Transformers.js的Google OwlV2基礎模型

🚀 快速開始

📚 詳細文檔