O

Owlvit Base Patch32

Developed by google
OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。
Downloads 764.95k
Release Time : 7/5/2022

Model Overview

OWL-ViTはCLIPをマルチモーダルバックボーンとして採用し、ViTスタイルのTransformerと軽量な予測ヘッドを組み合わせ、オープン語彙の物体検出を実現します。テキスト記述で直接画像内のオブジェクトを検出でき、ゼロショット転移をサポートします。

Model Features

ゼロショット検出能力
特定カテゴリの訓練データ不要で、テキスト記述から直接新しいカテゴリのオブジェクトを検出
オープン語彙サポート
訓練時に未見のカテゴリ名を処理可能で、オープンワールドの物体検出を実現
マルチモーダルアーキテクチャ
視覚TransformerとテキストTransformerを統合し、画像とテキストの共同理解を実現

Model Capabilities

ゼロショット物体検出
テキスト条件付き画像検索
オープン語彙認識
マルチモーダル理解

Use Cases

コンピュータビジョン研究
ゼロショット物体検出研究
未見カテゴリに対するモデルの汎化能力を研究
実用アプリケーション
画像コンテンツ検索
自然言語記述で画像内の特定オブジェクトを検索
インテリジェント監視
自然言語クエリで監視映像内の特定ターゲットを検出
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase