# ゼロショット物体検出

Llmdet Swin Large Hf
Apache-2.0
LLMDetは大規模言語モデル監視による強力なオープン語彙物体検出器で、CVPR2025ハイライト論文の成果です
物体検出
L
fushh7
3,428
1
Llmdet Swin Base Hf
Apache-2.0
LLMDetは大規模言語モデル監視に基づくオープン語彙物体検出器で、ゼロショット物体検出を実現できます。
物体検出 Safetensors
L
fushh7
605
0
Llmdet Swin Tiny Hf
Apache-2.0
LLMDetは大規模言語モデル監視による強力なオープン語彙物体検出器で、ゼロショット物体検出を実現できます。
物体検出
L
fushh7
2,451
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。
テキスト生成画像 Safetensors 英語
V
omlab
892
11
Inference Endpoint For Omdet Turbo Swin Tiny Hf
Apache-2.0
Swin-Tinyアーキテクチャに基づくゼロショット物体検出モデルで、フランス語と英語をサポートし、様々なシーンの物体検出タスクに適しています。
物体検出 Transformers 複数言語対応
I
Blueway
199
1
Yoloe 11l Seg
YOLOEはリアルタイム視覚万能モデルで、ゼロショット物体検出など様々な視覚タスクをサポートします。
物体検出
Y
jameslahm
219
2
Yoloe V8l Seg
YOLOEはリアルタイム視覚万能モデルで、物体検出と視覚理解能力を組み合わせ、様々な視覚タスクに適用可能です。
物体検出
Y
jameslahm
4,135
1
Yoloe V8s Seg
YOLOE はゼロショット物体検出モデルで、視覚シーン中の様々な物体をリアルタイムに検出できます。
物体検出
Y
jameslahm
28
0
Qwen2.5vl 3B VLM R1 REC 500steps
Qwen2.5-VL-3B-Instructを基にした視覚言語モデルで、VLM-R1強化学習によって強化され、指示表現理解タスクに特化しています。
テキスト生成画像 Safetensors 英語
Q
omlab
976
22
Grounding Dino Tiny ONNX
Apache-2.0
ONNX形式の軽量ゼロショット物体検出モデルで、Transformers.jsと互換性があり、ブラウザサイド展開に適しています。
物体検出 Transformers
G
onnx-community
98
1
Paligemma2 10b Mix 448
PaliGemma 2はGemma 2を基にした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを出力します。様々な視覚言語タスクに適しています。
画像生成テキスト Transformers
P
google
31.63k
25
Omdet Turbo Swin Tiny Hf
Apache-2.0
OmDet-TurboはリアルタイムTransformerベースの効率的な融合ヘッドを備えたオープン語彙検出モデルで、ゼロショット物体検出タスクに適しています。
物体検出 Safetensors
O
omlab
36.29k
33
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検出できます。
テキスト生成画像 Transformers
O
Thomasboosinger
1
0
Owlv2 Base Patch16
OWLv2は視覚言語事前学習に基づくモデルで、物体検出と位置特定タスクに特化しています。
物体検出 Transformers
O
Xenova
17
0
Owlvit Base Patch32
OWL-ViTは、視覚Transformerベースのゼロショット物体検出モデルで、微調整なしで新しいカテゴリの物体を検出できます。
物体検出 Transformers
O
Xenova
86
1
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を特定できます。
物体検出 Transformers
O
upfeatmediainc
15
0
Owlv2 Base Patch16
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出・位置特定できます。
テキスト生成画像 Transformers
O
vvmnnnkv
26
0
Owlv2 Large Patch14 Finetuned
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの学習データなしにテキストクエリで画像中の物体を検出できます。
テキスト生成画像 Transformers
O
google
1,434
4
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを特定できます。
テキスト生成画像 Transformers
O
google
262.77k
25
Owlv2 Large Patch14
Apache-2.0
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検出でき、特定カテゴリの訓練データを必要としません。
テキスト生成画像 Transformers
O
google
3,679
5
Owlv2 Base Patch16 Finetuned
Apache-2.0
OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。
物体検出 Transformers
O
google
2,698
3
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを位置特定できます。
テキスト生成画像 Transformers
O
google
932.80k
99
Owlv2 Base Patch16
Apache-2.0
OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。
テキスト生成画像 Transformers
O
google
15.42k
26
Grounding Dino Base
Apache-2.0
Grounding DINOはオープンセット物体検出モデルで、DINO検出器とテキストエンコーダを組み合わせることでゼロショット物体検出能力を実現しています。
物体検出 Transformers
G
IDEA-Research
1.1M
87
Grounding Dino Tiny
Apache-2.0
Grounding DINOはDINO検出器とグラウンディング事前学習を組み合わせたオープンセット物体検出モデルで、ゼロショット物体検出を実現できます。
物体検出 Transformers
G
IDEA-Research
771.67k
74
Owlvit Large Patch14
Apache-2.0
OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。
テキスト生成画像 Transformers
O
google
25.01k
25
Owlvit Base Patch16
Apache-2.0
OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出できます。
テキスト生成画像 Transformers
O
google
4,588
12
Owlvit Base Patch32
Apache-2.0
OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。
テキスト生成画像 Transformers
O
google
764.95k
129
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase