Grounding DINO Baseオープンソース目標検出モデル - 無料でデプロイしてゼロショット目標検出を実現

ホーム

Grounding Dino Base

IDEA-Researchによって開発

Grounding DINOはオープンセット物体検出モデルで、DINO検出器とテキストエンコーダを組み合わせることでゼロショット物体検出能力を実現しています。

物体検出

Transformers

オープンソースライセンス:Apache-2.0 #ゼロショット物体検出 #オープンセット検出 #テキスト誘導検出

ダウンロード数 1.1M

リリース時間 : 9/25/2023

モデル概要

このモデルはクローズドセット物体検出をオープンセット検出に拡張し、テキスト記述を通じてトレーニングデータにアノテーションされていない物体を画像から検出できます。COCOゼロショット検出で52.5 APという優れた性能を達成しています。

モデル特徴

オープンセット検出能力

特定カテゴリのトレーニング不要で新規物体を検出可能、従来の検出器のクローズドセット制限を突破

テキスト誘導検出

自然言語記述で検出プロセスを誘導、意味レベルのターゲット位置特定を実現

ゼロショット転移

未見の物体カテゴリでも優れた性能を発揮、COCOゼロショット検出で52.5 APを達成

モデル能力

ゼロショット物体検出

マルチカテゴリ同時検出

テキスト誘導画像解析

使用事例

インテリジェント監視

異常物体検出

テキスト記述で監視映像内の異常物品を検出

トレーニングデータに含まれない新型危険物品を識別可能

コンテンツモデレーション

違反コンテンツ識別

動的に定義されたテキストルールに基づき画像違反コンテンツを検出

再トレーニング不要で新規審査ルールに対応可能

🚀 Grounding DINOモデル (ベースバリアント)

Grounding DINOモデルは、オープンセット物体検出のためにDINOとグラウンディング事前学習を組み合わせたモデルです。このモデルは、テキストエンコーダを用いてクローズドセット物体検出モデルを拡張し、オープンセット物体検出を可能にします。COCOデータセットのゼロショット設定で52.5 APという高い精度を達成しています。

drawing

Grounding DINOの概要。原著論文より引用。

🚀 クイックスタート

このモデルは、ゼロショット物体検出タスクに使用できます。つまり、ラベル付きデータを使わずに画像内の物体を検出することができます。

💻 使用例

基本的な使用法

import requests

import torch
from PIL import Image
from transformers import AutoProcessor, AutoModelForZeroShotObjectDetection 

model_id = "IDEA-Research/grounding-dino-base"
device = "cuda" if torch.cuda.is_available() else "cpu"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForZeroShotObjectDetection.from_pretrained(model_id).to(device)

image_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)
# Check for cats and remote controls
# VERY important: text queries need to be lowercased + end with a dot
text = "a cat. a remote control."

inputs = processor(images=image, text=text, return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model(**inputs)

results = processor.post_process_grounded_object_detection(
    outputs,
    inputs.input_ids,
    box_threshold=0.4,
    text_threshold=0.3,
    target_sizes=[image.size[::-1]]
)

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

@misc{liu2023grounding,
      title={Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection}, 
      author={Shilong Liu and Zhaoyang Zeng and Tianhe Ren and Feng Li and Hao Zhang and Jie Yang and Chunyuan Li and Jianwei Yang and Hang Su and Jun Zhu and Lei Zhang},
      year={2023},
      eprint={2303.05499},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}