モデル選定

ゼロショット物体検出

# ゼロショット物体検出

Llmdet Swin Large Hf

LLMDetは大規模言語モデル監視による強力なオープン語彙物体検出器で、CVPR2025ハイライト論文の成果です

Llmdet Swin Base Hf

LLMDetは大規模言語モデル監視に基づくオープン語彙物体検出器で、ゼロショット物体検出を実現できます。

Llmdet Swin Tiny Hf

LLMDetは大規模言語モデル監視による強力なオープン語彙物体検出器で、ゼロショット物体検出を実現できます。

VLM R1 Qwen2.5VL 3B OVD 0321

Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。

テキスト生成画像

Safetensors 英語

Inference Endpoint For Omdet Turbo Swin Tiny Hf

Swin-Tinyアーキテクチャに基づくゼロショット物体検出モデルで、フランス語と英語をサポートし、様々なシーンの物体検出タスクに適しています。

Transformers 複数言語対応

YOLOEはリアルタイム視覚万能モデルで、ゼロショット物体検出など様々な視覚タスクをサポートします。

YOLOEはリアルタイム視覚万能モデルで、物体検出と視覚理解能力を組み合わせ、様々な視覚タスクに適用可能です。

YOLOE はゼロショット物体検出モデルで、視覚シーン中の様々な物体をリアルタイムに検出できます。

Qwen2.5vl 3B VLM R1 REC 500steps

Qwen2.5-VL-3B-Instructを基にした視覚言語モデルで、VLM-R1強化学習によって強化され、指示表現理解タスクに特化しています。

テキスト生成画像

Safetensors 英語

Grounding Dino Tiny ONNX

ONNX形式の軽量ゼロショット物体検出モデルで、Transformers.jsと互換性があり、ブラウザサイド展開に適しています。

Paligemma2 10b Mix 448

PaliGemma 2はGemma 2を基にした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを出力します。様々な視覚言語タスクに適しています。

画像生成テキスト

Omdet Turbo Swin Tiny Hf

OmDet-TurboはリアルタイムTransformerベースの効率的な融合ヘッドを備えたオープン語彙検出モデルで、ゼロショット物体検出タスクに適しています。

Owlv2 Large Patch14 Ensemble

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検出できます。

テキスト生成画像

Thomasboosinger

Owlv2 Base Patch16

OWLv2は視覚言語事前学習に基づくモデルで、物体検出と位置特定タスクに特化しています。

Owlvit Base Patch32

OWL-ViTは、視覚Transformerベースのゼロショット物体検出モデルで、微調整なしで新しいカテゴリの物体を検出できます。

Owlv2 Base Patch16 Ensemble

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を特定できます。

Owlv2 Base Patch16

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出・位置特定できます。

テキスト生成画像

Owlv2 Large Patch14 Finetuned

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの学習データなしにテキストクエリで画像中の物体を検出できます。

テキスト生成画像

Owlv2 Large Patch14 Ensemble

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを特定できます。

テキスト生成画像

Owlv2 Large Patch14

OWLv2はゼロショットのテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検出でき、特定カテゴリの訓練データを必要としません。

テキスト生成画像

Owlv2 Base Patch16 Finetuned

OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。

Owlv2 Base Patch16 Ensemble

OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを位置特定できます。

テキスト生成画像

Owlv2 Base Patch16

OWLv2はゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。

テキスト生成画像

Grounding Dino Base

Grounding DINOはオープンセット物体検出モデルで、DINO検出器とテキストエンコーダを組み合わせることでゼロショット物体検出能力を実現しています。

Grounding Dino Tiny

Grounding DINOはDINO検出器とグラウンディング事前学習を組み合わせたオープンセット物体検出モデルで、ゼロショット物体検出を実現できます。

Owlvit Large Patch14

OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内のオブジェクトを検索できます。

テキスト生成画像

Owlvit Base Patch16

OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出できます。

テキスト生成画像

Owlvit Base Patch32

OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase