オープンソースのゼロサンプル目標検出モデル「OMDet Turbo Swin Tiny」

ホーム

Inference Endpoint For Omdet Turbo Swin Tiny Hf

Bluewayによって開発

Swin-Tinyアーキテクチャに基づくゼロショット物体検出モデルで、フランス語と英語をサポートし、様々なシーンの物体検出タスクに適しています。

物体検出

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ゼロショット物体検出 #多言語サポート #道路欠陥認識

ダウンロード数 199

リリース時間 : 3/19/2025

モデル概要

このモデルはゼロショット物体検出モデルで、特定のカテゴリのトレーニングなしに画像内の対象物体を検出できます。道路損傷検出など様々な応用シーンに適しています。

モデル特徴

ゼロショット物体検出

特定カテゴリのトレーニングデータが不要で、画像内の対象物体を検出できます。

多言語サポート

フランス語と英語のラベル入力をサポートし、多言語環境に適しています。

効率的なアーキテクチャ

Swin-Tinyアーキテクチャに基づき、検出精度と計算効率のバランスを取っています。

モデル能力

ゼロショット物体検出

多言語ラベルサポート

画像分析

使用事例

インフラ検出

道路損傷検出

道路、縁石、道路標識などのインフラの損傷状況を検出します。

破損した縁石や道路などを正確に識別できます。

汎用物体検出

日常物体検出

画像内の猫やリモコンなどの一般的な物体を検出します。

様々な日常物体を識別し、その位置をマークできます。

🚀 [omlab/omdet - turbo - swin - tiny - hfのフォーク版によるゼロショット物体検出推論エンドポイント]

このリポジトリは、🤗 Inference Endpointsにおけるゼロショット物体検出のカスタムタスクを実装しています。これにより、特定の物体検出タスクを柔軟に実行できます。

🚀 クイックスタート

このリポジトリは、🤗 Inference Endpoints用のゼロショット物体検出のカスタムタスクを実装しています。カスタマイズされたハンドラーのコードは、[handler.py](https://huggingface.co/Blueway/inference - endpoint - for - omdet - turbo - swin - tiny - hf/blob/main/handler.py)にあります。

このモデルを推論エンドポイントとしてデプロイするには、タスクとしてCustomを選択してhandler.pyファイルを使用する必要があります。

リポジトリには、timmライブラリをダウンロードするためのrequirements.txtが含まれています。

期待されるリクエストペイロード

{
  "inputs": {
    "image": "/9j/4AAQSkZJRgABAQEBLAEsAAD/2wBDAAMCAgICAgMC....", // base64形式の画像バイト列
    "candidates": ["broken curb", "broken road", "broken road sign", "broken sidewalk"]
  }
}

以下は、Pythonとrequestsを使用してリクエストを実行する例です。

💻 使用例

基本的な使用法

import json
from typing import List
import requests as r
import base64

ENDPOINT_URL = ""
HF_TOKEN = ""

def predict(path_to_image: str = None, candidates: List[str] = None):
    with open(path_to_image, "rb") as i:
        b64 = base64.b64encode(i.read())

    payload = {"inputs": {"image": b64.decode("utf-8"), "candidates": candidates}}
    response = r.post(
        ENDPOINT_URL, headers={"Authorization": f"Bearer {HF_TOKEN}"}, json=payload
    )
    return response.json()


prediction = predict(
    path_to_image="image/brokencurb.jpg", candidates=["broken curb", "broken road", "broken road sign", "broken sidewalk"]
)
print(json.dumps(prediction, indent=2))

期待される出力

{
  "boxes": [
    [
      1.919342041015625,
      231.1556396484375,
      1011.4019775390625,
      680.3773193359375
    ],
    [
      610.9949951171875,
      397.6180419921875,
      1019.9259033203125,
      510.8144226074219
    ],
    [
      1.919342041015625,
      231.1556396484375,
      1011.4019775390625,
      680.3773193359375
    ],
    [
      786.1240234375,
      68.618896484375,
      916.1265869140625,
      225.0513458251953
    ]
  ],
  "scores": [
    0.4329715967178345,
    0.4215811491012573,
    0.3389397859573364,
    0.3133399784564972
  ],
  "candidates": [
    "broken sidewalk",
    "broken road sign",
    "broken road",
    "broken road sign"
  ]
}

ボックスは{x_min, y_min, x_max, y_max}の形式で構成されています。

高度な使用法

結果を可視化するには、次のコードを実装できます。

prediction = predict(
    path_to_image="image/cat_and_remote.jpg", candidates=["cat", "remote", "pot hole"]
)

import matplotlib.pyplot as plt
import matplotlib.patches as patches

with open("image/cat_and_remote.jpg", "rb") as i:
    image = plt.imread(i)
    
# Plot image
fig, ax = plt.subplots(1)
ax.imshow(image)
for score, class_name, box in zip(
    prediction["scores"], prediction["candidates"], prediction["boxes"]
):
    # Create a Rectangle patch
    rect = patches.Rectangle([int(box[0]), int(box[1])], int(box[2] - box[0]), int(box[3] - box[1]), linewidth=1, edgecolor='r', facecolor='none')
    # Add the patch to the Axes
    ax.add_patch(rect)
    
    ax.text(int(box[0]), int(box[1]), str(round(score, 2)) + " " + str(class_name), color='white', fontsize=6, bbox=dict(facecolor='red', alpha=0.5))
    
plt.savefig('image_result/cat_and_remote_with_bboxes_zero_shot.jpeg')

結果

📄 ライセンス

このプロジェクトは、Apache - 2.0ライセンスの下で提供されています。

参考情報

このHugging Face推論エンドポイントへの適応は、@philschmidの[philschmid/clip - zero - shot - image - classification](https://huggingface.co/philschmid/clip - zero - shot - image - classification)における作業に触発されています。