零樣本目標檢測

# 零樣本目標檢測

Llmdet Swin Large Hf

LLMDet是基於大語言模型監督的強開放詞彙目標檢測器，CVPR2025亮點論文成果

Llmdet Swin Base Hf

LLMDet是一個基於大語言模型監督的開放詞彙目標檢測器，能夠實現零樣本目標檢測。

Llmdet Swin Tiny Hf

LLMDet是基於大語言模型監督的強開放詞彙目標檢測器，能夠實現零樣本目標檢測。

VLM R1 Qwen2.5VL 3B OVD 0321

基於Qwen2.5-VL-3B-Instruct的零樣本目標檢測模型，通過VLM-R1強化學習增強，支持開放詞彙檢測任務。

文本生成圖像英語

Inference Endpoint For Omdet Turbo Swin Tiny Hf

基於Swin-Tiny架構的零樣本目標檢測模型，支持法語和英語，適用於多種場景的目標檢測任務。

Transformers 支持多種語言

YOLOE是一個即時視覺全能模型，支持零樣本目標檢測等多種視覺任務。

YOLOE是一個即時視覺全能模型，結合了目標檢測和視覺理解能力，適用於多種視覺任務。

YOLOE 是一個零樣本目標檢測模型，能夠即時檢測視覺場景中的各種物體。

Qwen2.5vl 3B VLM R1 REC 500steps

基於Qwen2.5-VL-3B-Instruct的視覺語言模型，通過VLM-R1強化學習增強，專注於指代表達式理解任務。

文本生成圖像

Safetensors 英語

Grounding Dino Tiny ONNX

基於ONNX格式的輕量級零樣本目標檢測模型，兼容Transformers.js，適用於瀏覽器端部署。

Paligemma2 10b Mix 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Omdet Turbo Swin Tiny Hf

OmDet-Turbo是基於即時Transformer的高效融合頭開放詞彙檢測模型，適用於零樣本目標檢測任務。

Owlv2 Large Patch14 Ensemble

OWLv2是一種零樣本文本條件目標檢測模型，可通過文本查詢檢測圖像中的對象。

文本生成圖像

Thomasboosinger

Owlv2 Base Patch16

OWLv2是一個基於視覺語言預訓練的模型，專注於對象檢測和定位任務。

Owlvit Base Patch32

OWL-ViT是一個基於視覺Transformer的零樣本目標檢測模型，能夠在不進行微調的情況下檢測新類別的物體。

Owlv2 Base Patch16 Ensemble

OWLv2是一種零樣本文本條件目標檢測模型，可通過文本查詢在圖像中定位物體。

Owlv2 Base Patch16

OWLv2是一種零樣本文本條件目標檢測模型，可通過文本查詢對圖像中的物體進行檢測和定位。

文本生成圖像

Owlv2 Large Patch14 Finetuned

OWLv2是一個零樣本文本條件目標檢測模型，可通過文本查詢在圖像中檢測物體，無需特定類別的訓練數據。

文本生成圖像

Owlv2 Large Patch14 Ensemble

OWLv2是一個零樣本文本條件目標檢測模型，可通過文本查詢在圖像中定位對象。

文本生成圖像

Owlv2 Large Patch14

OWLv2是一個零樣本文本條件目標檢測模型，可通過文本查詢在圖像中檢測對象，無需特定類別的訓練數據。

文本生成圖像

Owlv2 Base Patch16 Finetuned

OWLv2是一個零樣本文本條件目標檢測模型，可通過文本查詢檢索圖像中的對象。

Owlv2 Base Patch16 Ensemble

OWLv2是一種零樣本文本條件目標檢測模型，可通過文本查詢在圖像中定位對象。

文本生成圖像

Owlv2 Base Patch16

OWLv2是一種零樣本文本條件目標檢測模型，可通過文本查詢檢索圖像中的對象。

文本生成圖像

Grounding Dino Base

Grounding DINO是一個開放集目標檢測模型，通過結合DINO檢測器與文本編碼器實現零樣本目標檢測能力。

Grounding Dino Tiny

Grounding DINO是一個結合DINO檢測器與接地預訓練的開放集目標檢測模型，能夠實現零樣本目標檢測。

Owlvit Large Patch14

OWL-ViT是一個零樣本文本條件目標檢測模型，可通過文本查詢檢索圖像中的對象。

文本生成圖像

Owlvit Base Patch16

OWL-ViT是一個零樣本文本條件目標檢測模型，可通過文本查詢在圖像中檢測物體。

文本生成圖像

Owlvit Base Patch32

OWL-ViT是一個零樣本文本條件目標檢測模型，可以通過文本查詢搜索圖像中的對象，無需特定類別的訓練數據。

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase