detr-finetuned-chessオープンソース物体検出モデル - チェスの駒を正確に識別する

ホーム

Detr Finetuned Chess

aesatによって開発

これはDETRアーキテクチャに基づく物体検出モデルで、チェス駒認識タスクに特化してファインチューニングされています。

物体検出

Transformers

オープンソースライセンス:Apache-2.0 #チェス駒検出 #Transformer物体検出 #エンドツーエンドトレーニング

ダウンロード数 29

リリース時間 : 1/1/2025

モデル概要

このモデルはDETR（Detection Transformer）アーキテクチャを使用し、ResNet-50バックボーンネットワークと組み合わせ、チェス駒データセットでファインチューニングされており、ボード上の様々な駒を識別・位置特定できます。

モデル特徴

エンドツーエンド物体検出

Transformerアーキテクチャを採用し、複雑な後処理ステップなしでエンドツーエンドの物体検出を実現

チェス駒認識

チェス駒認識タスクに特化して最適化・ファインチューニング

ResNet-50バックボーンネットワーク基盤

特徴抽出のバックボーンネットワークとしてResNet-50を使用し、強力な視覚的特徴表現能力を提供

モデル能力

物体検出

チェス駒認識

バウンディングボックス予測

使用事例

ボードゲームアプリケーション

ボード状態認識

ボード上の駒の位置と種類を自動識別

棋譜の自動記録や局面分析に使用可能

チェス教育支援

初心者が駒の位置と動きを識別するのを支援

リアルタイムの視覚的フィードバックを提供

コンピュータビジョン

物体検出デモ

物体検出タスクにおけるTransformerアーキテクチャの応用を展示

🚀 DETR (End-to-End Object Detection) モデル（ResNet-50バックボーン、チェス駒でファインチューニング済み）

このモデルは、チェス駒の認識データセットでエンドツーエンドにトレーニングされたDetection Transformer (DETR) モデルです。DETRモデルは、畳み込みバックボーンを持つエンコーダ・デコーダ型のトランスフォーマーで、物体検出を行うためにデコーダ出力の上に2つのヘッドが追加されています。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

from transformers import DetrImageProcessor, DetrForObjectDetection
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = DetrImageProcessor.from_pretrained("aesat/detr-finetuned-chess", revision="no_timm")
model = DetrForObjectDetection.from_pretrained("facebook/detr-finetuned-chess", revision="no_timm")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

# convert outputs (bounding boxes and class logits) to COCO API
# let's only keep detections with score > 0.9
target_sizes = torch.tensor([image.size[::-1]])
results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.9)[0]

for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
    box = [round(i, 2) for i in box.tolist()]
    print(
            f"Detected {model.config.id2label[label.item()]} with confidence "
            f"{round(score.item(), 3)} at location {box}"
    )

📚 ドキュメント

モデルの詳細

モデルの説明

DETRモデルは、畳み込みバックボーンを持つエンコーダ・デコーダ型のトランスフォーマーです。物体検出を行うために、デコーダ出力の上に2つのヘッドが追加されています。クラスラベル用の線形層と、バウンディングボックス用のMLP（多層パーセプトロン）です。このモデルは、いわゆる物体クエリを使用して画像内の物体を検出します。各物体クエリは、画像内の特定の物体を探します。COCOの場合、物体クエリの数は100に設定されています。