O

Owlv2 Large Patch14 Finetuned

googleによって開発
OWLv2はゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの学習データなしにテキストクエリで画像中の物体を検出できます。
ダウンロード数 1,434
リリース時間 : 10/14/2023

モデル概要

OWLv2はCLIPバックボーンネットワークを基にしたゼロショットテキスト条件付き物体検出モデルで、1つ以上のテキストクエリを使って画像中の物体を検出します。ViT-L/14を視覚エンコーダーとして使用し、コントラスト損失で学習され、標準検出データセットでファインチューニングされています。

モデル特徴

ゼロショット検出能力
特定カテゴリの学習データが不要で、テキストクエリだけで画像中の物体を検出可能。
オープン語彙分類
固定分類層の重みをテキスト埋め込みに置き換えることで、任意のクラス名の検出をサポート。
マルチクエリ検出
1つ以上のテキストクエリを使用して、画像中の異なる物体を同時に検出可能。

モデル能力

テキスト条件付き物体検出
オープン語彙物体認識
マルチカテゴリ同時検出

使用事例

コンピュータビジョン研究
ゼロショット物体検出研究
未学習カテゴリに対するモデルの検出能力を研究する用途。
学際的応用
特殊シーン物体認識
医療・産業など学習データ取得が困難な特殊分野での物体検出。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase