O

Owlvit Base Patch32

googleによって開発
OWL-ViTはゼロショットのテキスト条件付き物体検出モデルで、特定カテゴリの訓練データなしにテキストクエリで画像内のオブジェクトを検索できます。
ダウンロード数 764.95k
リリース時間 : 7/5/2022

モデル概要

OWL-ViTはCLIPをマルチモーダルバックボーンとして採用し、ViTスタイルのTransformerと軽量な予測ヘッドを組み合わせ、オープン語彙の物体検出を実現します。テキスト記述で直接画像内のオブジェクトを検出でき、ゼロショット転移をサポートします。

モデル特徴

ゼロショット検出能力
特定カテゴリの訓練データ不要で、テキスト記述から直接新しいカテゴリのオブジェクトを検出
オープン語彙サポート
訓練時に未見のカテゴリ名を処理可能で、オープンワールドの物体検出を実現
マルチモーダルアーキテクチャ
視覚TransformerとテキストTransformerを統合し、画像とテキストの共同理解を実現

モデル能力

ゼロショット物体検出
テキスト条件付き画像検索
オープン語彙認識
マルチモーダル理解

使用事例

コンピュータビジョン研究
ゼロショット物体検出研究
未見カテゴリに対するモデルの汎化能力を研究
実用アプリケーション
画像コンテンツ検索
自然言語記述で画像内の特定オブジェクトを検索
インテリジェント監視
自然言語クエリで監視映像内の特定ターゲットを検出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase